跳到主要内容

AMD Instinct MI400

CES 2026 CDNA 5 代际参数发布快照与互联路线落地状态判读

核心要点

  • MI400 系列三款加速器已确认(MI455X/MI440X/MI430X),CDNA 5,432 GB HBM4
  • MI455X 旗舰款:40 PFLOPs FP4 / 20 PFLOPs FP8,8 XCD chiplet
  • Infinity Fabric over Ethernet(IFoE/UALoE)做 scale-up,72 GPU 逻辑域
  • H2 2026 出货,MI500 已定 2027

本文定位:这是一篇 CES 2026 的"事件快照",聚焦 MI400 代际参数和互联路线。xGMI/Infinity Fabric 协议机制见 1.7 AMD xGMI / Infinity Fabric,本文只做新代际参数 + 落地判读 + 互联路线分析。

MI400 是什么?

核心问题:MI400 相对 MI300X/MI350 代际提升了什么?

MI400 是 AMD 面向 H2 2026 的下一代 AI 加速器,CDNA 5 架构,核心升级是 HBM4 内存 + 翻倍算力 + 以太网 scale-up 互联[1]

CES 2026 已确认三款 MI400 加速器(MI455X 旗舰款 / MI440X 企业级 / MI430X HPC),覆盖不同市场段:

维度MI455X(旗舰款)对比 MI300X对比 MI350X
架构CDNA 5CDNA 3CDNA 4
HBM432 GB HBM4192 GB HBM3288 GB HBM3e
内存带宽19.6 TB/s5.3 TB/s~8 TB/s
峰值算力40 PFLOPs FP4 / 20 PFLOPs FP81.3 PFLOPs FP8 / 2.6 PFLOPs FP4~10 PFLOPs FP8
Chiplet8 XCD(2 AIDs × 4 XCD)8 XCD8 XCD
Scale-Up 互联IFoE/UALoE,72 GPU 逻辑域xGMI Infinity FabricxGMI Infinity Fabric
出货H2 20262023 已出货2025 已出货

精度标注:FP4 和 FP8 算力不可直接对比。MI455X 的 40 PFLOPs 是 FP4,MI300X 的 1.3 PFLOPs 是 FP8——两者精度差 2×,不构成简单的"30× 算力提升"。

@tbl-mi400-specs MI400 规格与代际对比

432 GB HBM4 是截至 2026-06 已公布 AI 加速器中最大的单芯片显存,超过 NVIDIA Rubin(288 GB HBM4)和 Google TPU 8i(288 GB HBM)。这对推理的 KV Cache 容量直接有利——同样模型、同样 batch,MI400 能装更多 KV 不 offload。

互联路线为什么值得关注?

核心问题:MI400 的 scale-up 互联走了什么路线,和 NVLink/UALink 差在哪?

AMD 用 Infiniband-over-Ethernet 的思路做 scale-up——把 Infinity Fabric 协议跑在以太网物理层上,用 Broadcom 以太网交换机做交换[2]。这跟 NVIDIA 自研 NVSwitch ASIC 完全不同。

互联参数:

维度参数
灵活 I/O 通道144 lanes,支持多协议
Infinity Fabric 每 lane64G
UALink 每 lane128G(规范速率,MI400 实际走 UALoE 路径,非原生 UALink)
xGMI 4 每 lane128G
IFoE / UALoE 每 lane212G(协议层速率,物理层走 Tomahawk 6 200G/lane 以太网)
Scale-Up 交换机Broadcom Tomahawk 6(以太网,200G/lane)
Scale-Up 域规模72 GPU(逻辑)

@tbl-mi400-interconnect MI400 互联参数

关键判断:AMD 选择 IFoE(后改名 UALoE)走以太网交换机做 scale-up,是因为原生 UALink 交换机(Marvell/Astera Labs)在 2026 年底前无法就绪。这是一个时间妥协——用成熟的以太网硬件先跑起来,等 UALink 交换机就绪再切。以太网交换机的延迟通常高于专用 scale-up ASIC(定性判断,无公开定量对比数据),但好处是供应链不依赖单一 ASIC 厂商。

跟 Tier6 的关联:IFoE 的 212G/lane × 144 lanes 意味着理论上的 scale-up 带宽上限。如果未来有实测数据,可以作为 xGMI 代际表的输入。

Helios 机架

Helios 是 AMD 的机架级 AI 方案,与 MI400 配套。已知结构(基于 MI455X):

组件配置
计算托盘4 × MI455X + 1 × Venice EPYC CPU
交换托盘2 × Broadcom Tomahawk 6 交换机
机架规模18 计算托盘 + 9 交换托盘 = 72 GPU
Scale-Up 域72 GPU 通过 IFoE/UALoE 全互联

@tbl-mi400-helios Helios 机架已知结构

与 MI355X Helios 的差异:MI355X 的 Helios 是 16 台 UBB8 服务器共 128 GPU,但无 coherent scale-up 域(各服务器独立)。MI400 的 Helios 把 72 GPU 做进同一个 scale-up 域,通过 IFoE 直连——规模更小但逻辑更紧密,这对 TP 通信更友好。

Helios MI400 完整规格待出货后补充。

落地状态

MI400 全系列未出货,计划 H2 2026。 MI350 系列已量产交付,MI500 已确认 2027 年。

产品落地状态数据可信度
MI400 系列H2 2026 出货厂商规格
MI350 系列已量产交付有出货验证
Helios 机架(MI400)未出货厂商规格
MI500 系列2027 路线图路线图

@tbl-mi400-landing 落地状态

与 Tier6 的关联

  • 432 GB HBM4:目前最大显存,对 KV Cache 容量建模有直接参考价值
  • IFoE scale-up 互联:以太网做 scale-up 是 AMD 独有路线,带宽/延迟数字如果公开可作为互联建模的第三种路径(NVLink / 灵衢 / IFoE)
  • 72 GPU scale-up 域:TP 度上限参考——72 GPU 内 TP 通信走 IFoE,超出走 scale-out

Takeaway

知识点核心结论
显存优势432 GB HBM4,当前已公布最大单芯片显存
算力MI455X: 40 PFLOPs FP4 / 20 PFLOPs FP8,CDNA 5 架构
互联路线IFoE 走以太网交换机做 scale-up,非原生 UALink ASIC,是时间妥协
域规模72 GPU scale-up 逻辑域
已确认型号三款:MI455X / MI440X / MI430X,CES 2026 公布
落地状态H2 2026 出货,MI350 已量产
下一代MI500 已确认 2027

参考资料

  1. AMD, AMD and its Partners Share their Vision for "AI Everywhere, for Everyone", CES 2026-01-05. https://www.amd.com/en/newsroom/press-releases/2026-1-5-amd-and-its-partners-share-their-vision-for-ai-ev.html
  2. SemiAnalysis, AMD Advancing AI: MI350X and MI400 UALoE72, MI500 UAL256, 2025-06. https://newsletter.semianalysis.com/p/amd-advancing-ai-mi350x-and-mi400-ualoe72-mi500-ual256

延伸阅读