AMD Instinct MI400
CES 2026 CDNA 5 代际参数发布快照与互联路线落地状态判读
核心要点:
- MI400 系列三款加速器已确认(MI455X/MI440X/MI430X),CDNA 5,432 GB HBM4
- MI455X 旗舰款:40 PFLOPs FP4 / 20 PFLOPs FP8,8 XCD chiplet
- Infinity Fabric over Ethernet(IFoE/UALoE)做 scale-up,72 GPU 逻辑域
- H2 2026 出货,MI500 已定 2027
本文定位:这是一篇 CES 2026 的"事件快照",聚焦 MI400 代际参数和互联路线。xGMI/Infinity Fabric 协议机制见 1.7 AMD xGMI / Infinity Fabric,本文只做新代际参数 + 落地判读 + 互联路线分析。
MI400 是什么?
核心问题:MI400 相对 MI300X/MI350 代际提升了什么?
MI400 是 AMD 面向 H2 2026 的下一代 AI 加速器,CDNA 5 架构,核心升级是 HBM4 内存 + 翻倍算力 + 以太网 scale-up 互联[1]。
CES 2026 已确认三款 MI400 加速器(MI455X 旗舰款 / MI440X 企业级 / MI430X HPC),覆盖不同市场段:
| 维度 | MI455X(旗舰款) | 对比 MI300X | 对比 MI350X |
|---|---|---|---|
| 架构 | CDNA 5 | CDNA 3 | CDNA 4 |
| HBM | 432 GB HBM4 | 192 GB HBM3 | 288 GB HBM3e |
| 内存带宽 | 19.6 TB/s | 5.3 TB/s | ~8 TB/s |
| 峰值算力 | 40 PFLOPs FP4 / 20 PFLOPs FP8 | 1.3 PFLOPs FP8 / 2.6 PFLOPs FP4 | ~10 PFLOPs FP8 |
| Chiplet | 8 XCD(2 AIDs × 4 XCD) | 8 XCD | 8 XCD |
| Scale-Up 互联 | IFoE/UALoE,72 GPU 逻辑域 | xGMI Infinity Fabric | xGMI Infinity Fabric |
| 出货 | H2 2026 | 2023 已出货 | 2025 已出货 |
精度标注:FP4 和 FP8 算力不可直接对比。MI455X 的 40 PFLOPs 是 FP4,MI300X 的 1.3 PFLOPs 是 FP8——两者精度差 2×,不构成简单的"30× 算力提升"。
@tbl-mi400-specs MI400 规格与代际对比
432 GB HBM4 是截至 2026-06 已公布 AI 加速器中最大的单芯片显存,超过 NVIDIA Rubin(288 GB HBM4)和 Google TPU 8i(288 GB HBM)。这对推理的 KV Cache 容量直接有利——同样模型、同样 batch,MI400 能装更多 KV 不 offload。
互联路线为什么值得关注?
核心问题:MI400 的 scale-up 互联走了什么路线,和 NVLink/UALink 差在哪?
AMD 用 Infiniband-over-Ethernet 的思路做 scale-up——把 Infinity Fabric 协议跑在以太网物理层上,用 Broadcom 以太网交换机做交换[2]。这跟 NVIDIA 自研 NVSwitch ASIC 完全不同。
互联参数:
| 维度 | 参数 |
|---|---|
| 灵活 I/O 通道 | 144 lanes,支持多协议 |
| Infinity Fabric 每 lane | 64G |
| UALink 每 lane | 128G(规范速率,MI400 实际走 UALoE 路径,非原生 UALink) |
| xGMI 4 每 lane | 128G |
| IFoE / UALoE 每 lane | 212G(协议层速率,物理层走 Tomahawk 6 200G/lane 以太网) |
| Scale-Up 交换机 | Broadcom Tomahawk 6(以太网,200G/lane) |
| Scale-Up 域规模 | 72 GPU(逻辑) |
@tbl-mi400-interconnect MI400 互联参数
关键判断:AMD 选择 IFoE(后改名 UALoE)走以太网交换机做 scale-up,是因为原生 UALink 交换机(Marvell/Astera Labs)在 2026 年底前无法就绪。这是一个时间妥协——用成熟的以太网硬件先跑起来,等 UALink 交换机就绪再切。以太网交换机的延迟通常高于专用 scale-up ASIC(定性判断,无公开定量对比数据),但好处是供应链不依赖单一 ASIC 厂商。
跟 Tier6 的关联:IFoE 的 212G/lane × 144 lanes 意味着理论上的 scale-up 带宽上限。如果未来有实测数据,可以作为 xGMI 代际表的输入。
Helios 机架
Helios 是 AMD 的机架级 AI 方案,与 MI400 配套。已知结构(基于 MI455X):
| 组件 | 配置 |
|---|---|
| 计算托盘 | 4 × MI455X + 1 × Venice EPYC CPU |
| 交换托盘 | 2 × Broadcom Tomahawk 6 交换机 |
| 机架规模 | 18 计算托盘 + 9 交换托盘 = 72 GPU |
| Scale-Up 域 | 72 GPU 通过 IFoE/UALoE 全互联 |
@tbl-mi400-helios Helios 机架已知结构
与 MI355X Helios 的差异:MI355X 的 Helios 是 16 台 UBB8 服务器共 128 GPU,但无 coherent scale-up 域(各服务器独立)。MI400 的 Helios 把 72 GPU 做进同一个 scale-up 域,通过 IFoE 直连——规模更小但逻辑更紧密,这对 TP 通信更友好。
Helios MI400 完整规格待出货后补充。
落地状态
MI400 全系列未出货,计划 H2 2026。 MI350 系列已量产交付,MI500 已确认 2027 年。
| 产品 | 落地状态 | 数据可信度 |
|---|---|---|
| MI400 系列 | H2 2026 出货 | 厂商规格 |
| MI350 系列 | 已量产交付 | 有出货验证 |
| Helios 机架(MI400) | 未出货 | 厂商规格 |
| MI500 系列 | 2027 路线图 | 路线图 |
@tbl-mi400-landing 落地状态
与 Tier6 的关联
- 432 GB HBM4:目前最大显存,对 KV Cache 容量建模有直接参考价值
- IFoE scale-up 互联:以太网做 scale-up 是 AMD 独有路线,带宽/延迟数字如果公开可作为互联建模的第三种路径(NVLink / 灵衢 / IFoE)
- 72 GPU scale-up 域:TP 度上限参考——72 GPU 内 TP 通信走 IFoE,超出走 scale-out
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 显存优势 | 432 GB HBM4,当前已公布最大单芯片显存 |
| 算力 | MI455X: 40 PFLOPs FP4 / 20 PFLOPs FP8,CDNA 5 架构 |
| 互联路线 | IFoE 走以太网交换机做 scale-up,非原生 UALink ASIC,是时间妥协 |
| 域规模 | 72 GPU scale-up 逻辑域 |
| 已确认型号 | 三款:MI455X / MI440X / MI430X,CES 2026 公布 |
| 落地状态 | H2 2026 出货,MI350 已量产 |
| 下一代 | MI500 已确认 2027 |
参考资料
- AMD, AMD and its Partners Share their Vision for "AI Everywhere, for Everyone", CES 2026-01-05. https://www.amd.com/en/newsroom/press-releases/2026-1-5-amd-and-its-partners-share-their-vision-for-ai-ev.html
- SemiAnalysis, AMD Advancing AI: MI350X and MI400 UALoE72, MI500 UAL256, 2025-06. https://newsletter.semianalysis.com/p/amd-advancing-ai-mi350x-and-mi400-ualoe72-mi500-ual256
延伸阅读
- 1.7 AMD xGMI / Infinity Fabric — AMD xGMI/Infinity Fabric 协议机制深度调研
- 1.3 NVIDIA Rubin 平台 — NVIDIA Rubin 平台同期发布