AMD Instinct MI400

CES 2026 CDNA 5 代际参数发布快照与互联路线落地状态判读

核心要点：

MI400 系列三款加速器已确认（MI455X/MI440X/MI430X），CDNA 5，432 GB HBM4

MI455X 旗舰款：40 PFLOPs FP4 / 20 PFLOPs FP8，8 XCD chiplet

Infinity Fabric over Ethernet（IFoE/UALoE）做 scale-up，72 GPU 逻辑域

H2 2026 出货，MI500 已定 2027

本文定位：这是一篇 CES 2026 的"事件快照"，聚焦 MI400 代际参数和互联路线。xGMI/Infinity Fabric 协议机制见 1.7 AMD xGMI / Infinity Fabric，本文只做新代际参数 + 落地判读 + 互联路线分析。

MI400 是什么？

核心问题：MI400 相对 MI300X/MI350 代际提升了什么？

MI400 是 AMD 面向 H2 2026 的下一代 AI 加速器，CDNA 5 架构，核心升级是 HBM4 内存 + 翻倍算力 + 以太网 scale-up 互联[1]。

CES 2026 已确认三款 MI400 加速器（MI455X 旗舰款 / MI440X 企业级 / MI430X HPC），覆盖不同市场段：

维度	MI455X（旗舰款）	对比 MI300X	对比 MI350X
架构	CDNA 5	CDNA 3	CDNA 4
HBM	432 GB HBM4	192 GB HBM3	288 GB HBM3e
内存带宽	19.6 TB/s	5.3 TB/s	~8 TB/s
峰值算力	40 PFLOPs FP4 / 20 PFLOPs FP8	1.3 PFLOPs FP8 / 2.6 PFLOPs FP4	~10 PFLOPs FP8
Chiplet	8 XCD（2 AIDs × 4 XCD）	8 XCD	8 XCD
Scale-Up 互联	IFoE/UALoE，72 GPU 逻辑域	xGMI Infinity Fabric	xGMI Infinity Fabric
出货	H2 2026	2023 已出货	2025 已出货

精度标注：FP4 和 FP8 算力不可直接对比。MI455X 的 40 PFLOPs 是 FP4，MI300X 的 1.3 PFLOPs 是 FP8——两者精度差 2×，不构成简单的"30× 算力提升"。

@tbl-mi400-specs MI400 规格与代际对比

432 GB HBM4 是截至 2026-06 已公布 AI 加速器中最大的单芯片显存，超过 NVIDIA Rubin（288 GB HBM4）和 Google TPU 8i（288 GB HBM）。这对推理的 KV Cache 容量直接有利——同样模型、同样 batch，MI400 能装更多 KV 不 offload。

互联路线为什么值得关注？

核心问题：MI400 的 scale-up 互联走了什么路线，和 NVLink/UALink 差在哪？

AMD 用 Infiniband-over-Ethernet 的思路做 scale-up——把 Infinity Fabric 协议跑在以太网物理层上，用 Broadcom 以太网交换机做交换[2]。这跟 NVIDIA 自研 NVSwitch ASIC 完全不同。

互联参数：

维度	参数
灵活 I/O 通道	144 lanes，支持多协议
Infinity Fabric 每 lane	64G
UALink 每 lane	128G（规范速率，MI400 实际走 UALoE 路径，非原生 UALink）
xGMI 4 每 lane	128G
IFoE / UALoE 每 lane	212G（协议层速率，物理层走 Tomahawk 6 200G/lane 以太网）
Scale-Up 交换机	Broadcom Tomahawk 6（以太网，200G/lane）
Scale-Up 域规模	72 GPU（逻辑）

@tbl-mi400-interconnect MI400 互联参数

关键判断：AMD 选择 IFoE（后改名 UALoE）走以太网交换机做 scale-up，是因为原生 UALink 交换机（Marvell/Astera Labs）在 2026 年底前无法就绪。这是一个时间妥协——用成熟的以太网硬件先跑起来，等 UALink 交换机就绪再切。以太网交换机的延迟通常高于专用 scale-up ASIC（定性判断，无公开定量对比数据），但好处是供应链不依赖单一 ASIC 厂商。

跟 Tier6 的关联：IFoE 的 212G/lane × 144 lanes 意味着理论上的 scale-up 带宽上限。如果未来有实测数据，可以作为 xGMI 代际表的输入。

Helios 机架

Helios 是 AMD 的机架级 AI 方案，与 MI400 配套。已知结构（基于 MI455X）：

组件	配置
计算托盘	4 × MI455X + 1 × Venice EPYC CPU
交换托盘	2 × Broadcom Tomahawk 6 交换机
机架规模	18 计算托盘 + 9 交换托盘 = 72 GPU
Scale-Up 域	72 GPU 通过 IFoE/UALoE 全互联

@tbl-mi400-helios Helios 机架已知结构

与 MI355X Helios 的差异：MI355X 的 Helios 是 16 台 UBB8 服务器共 128 GPU，但无 coherent scale-up 域（各服务器独立）。MI400 的 Helios 把 72 GPU 做进同一个 scale-up 域，通过 IFoE 直连——规模更小但逻辑更紧密，这对 TP 通信更友好。

Helios MI400 完整规格待出货后补充。

落地状态

MI400 全系列未出货，计划 H2 2026。 MI350 系列已量产交付，MI500 已确认 2027 年。

产品	落地状态	数据可信度
MI400 系列	H2 2026 出货	厂商规格
MI350 系列	已量产交付	有出货验证
Helios 机架（MI400）	未出货	厂商规格
MI500 系列	2027 路线图	路线图

@tbl-mi400-landing 落地状态

与 Tier6 的关联

432 GB HBM4：目前最大显存，对 KV Cache 容量建模有直接参考价值
IFoE scale-up 互联：以太网做 scale-up 是 AMD 独有路线，带宽/延迟数字如果公开可作为互联建模的第三种路径（NVLink / 灵衢 / IFoE）
72 GPU scale-up 域：TP 度上限参考——72 GPU 内 TP 通信走 IFoE，超出走 scale-out

Takeaway

知识点	核心结论
显存优势	432 GB HBM4，当前已公布最大单芯片显存
算力	MI455X: 40 PFLOPs FP4 / 20 PFLOPs FP8，CDNA 5 架构
互联路线	IFoE 走以太网交换机做 scale-up，非原生 UALink ASIC，是时间妥协
域规模	72 GPU scale-up 逻辑域
已确认型号	三款：MI455X / MI440X / MI430X，CES 2026 公布
落地状态	H2 2026 出货，MI350 已量产
下一代	MI500 已确认 2027

参考资料

AMD, AMD and its Partners Share their Vision for "AI Everywhere, for Everyone", CES 2026-01-05. https://www.amd.com/en/newsroom/press-releases/2026-1-5-amd-and-its-partners-share-their-vision-for-ai-ev.html
SemiAnalysis, AMD Advancing AI: MI350X and MI400 UALoE72, MI500 UAL256, 2025-06. https://newsletter.semianalysis.com/p/amd-advancing-ai-mi350x-and-mi400-ualoe72-mi500-ual256

MI400 是什么？​

互联路线为什么值得关注？​

Helios 机架​

落地状态​

与 Tier6 的关联​

Takeaway​

参考资料​

延伸阅读​