厂商集群拓扑案例

NVIDIA、Google、Meta、AMD、Intel、华为六家厂商的 AI 集群拓扑选型与部署差异

核心要点：

NVIDIA: NVSwitch 全互联 + Rail-Optimized Fat-tree (IB)，带宽断崖 18-36×

Google TPU: 3D Torus + OCS 单拓扑贯穿，无带宽断崖

Meta: Full Mesh + 5-tier Clos (RoCE)，唯一大规模选 RoCE 的厂商

AMD: IF4 Ring 8 XCD + Dragonfly (HPE Slingshot)

Intel Gaudi：统一 RoCEv2，21/3 端口分配仍有 7:1 带宽断崖

华为：HCCS （910B 8 卡） → CloudMatrix 384 （UB 全光）

全互联域规模竞赛：NVL72 (72) vs CloudMatrix 384 (384)

各厂商拓扑层级总览

核心问题：六大厂商在节点内、节点间、集群级的拓扑选择分别是什么？一张表如何概括？

厂商	节点内拓扑	互联协议	集群级拓扑	带宽断崖
NVIDIA	NVSwitch Full Mesh (H100: 8 GPU 900 GB/s, NVL72: 72 GPU 1800 GB/s)	ConnectX-7/8, IB NDR/XDR 400-800 Gbps	Rail-Optimized Fat-tree, 100K+ GPU, SHARP	18-36×
Google TPU	无节点概念，所有芯片 ICI 直连 (2.4-9.6 Tbps/chip)	ICI 自研，跨 rack OCS	3D Torus + OCS (v5p: 8960, Ironwood: 9216)	无断崖
Meta	NVLink + NVSwitch (Grand Teton: 8 GPU 900 GB/s)	RoCE v2 400GbE，成本低 30-50%	5-tier Clos Spine-Leaf, 35K+ GPU	~18×
AMD	IF4 Ring 8 XCD （MI300X：相邻 200, RCCL 750-800 GB/s）	PCIe Gen5 / 以太网 ~63 GB/s	HPE Slingshot Dragonfly (El Capitan: 44,544 MI300A)	~32×
Intel Gaudi	RoCEv2 Full Mesh （21 端口 scale-up, 8 芯片 4.2 Tbps）	RoCEv2 200GbE （3 端口 scale-out）	Fat-tree 以太网	7:1
华为昇腾	HCCS/UB Full Mesh （910B: 8×~400 GB/s, CM384: 384×2.8 Tbps 全光）	RoCEv2 400 Gbps	CloudEngine Spine-Leaf	待测

@tbl-topo-vd-overview 厂商集群互联拓扑层级对比

NVIDIA：全互联 + Fat-tree 怎么分工？

节点内不惜成本追求全互联，节点间用成熟 Fat-tree[1]。

设计逻辑：TP 通信量最大且延迟最敏感，必须在全互联域内完成。节点间通信 (DP/PP/EP) 容忍度更高，用 Fat-tree 成熟生态。

节点内：NVSwitch 全互联

DGX H100 (8 GPU)：每颗 H100 有 18 条 NVLink 4.0 （25 GB/s 单向/50 GB/s 双向），分配到 4 颗 NVSwitch 3.0，总 900 GB/s/GPU。4 颗 NVSwitch 交叉连接 8 GPU 形成逻辑全互联[2]。

GB200 NVL72 (72 GPU):

参数	值
GPU 数	72 (36 Superchip × 2 B200)
NVSwitch 数	18 （NVSwitch 4.0，72 端口/颗）
每 GPU NVLink 链路	18 (NVLink 5.0, 50 GB/s/link)
每 GPU 双向带宽	1,800 GB/s
物理构成	1 rack: 18 compute trays × 4 GPUs + 9 Switch trays

@tbl-topo-vd-nvl72 GB200 NVL72 参数

为什么 72: 36 Superchip × 2 GPU，受 D2D 链路和机架空间限制。NVSwitch 4.0 有 72 端口，18 颗提供 1296 端口恰好连接 72 GPU × 18 links。128 GPU 功耗散热超出单 rack[3]。

NVL72 NVLink 域拓扑@fig-topo-vd-nvl72

演进 (@tbl-topo-vd-nv-gen):

系统	规模	实现方式	每 GPU 带宽
DGX A100	8 GPU	6× NVSwitch 2.0	600 GB/s 双向
DGX H100	8 GPU	4× NVSwitch 3.0	900 GB/s 双向
GB200 NVL72	72 GPU	18× NVSwitch 4.0	1,800 GB/s 双向

@tbl-topo-vd-nv-gen NVIDIA 节点内拓扑代际

节点间：Rail-Optimized Fat-tree

SuperPOD (H100) (@tbl-topo-vd-superpod):

层级	组件	连接方式
节点内	8 GPU + 4 NVSwitch	NVLink 4.0 全互联，900 GB/s/GPU
节点间（同 Rail）	所有节点的 GPU_i → ToR Rail-i	ConnectX-7 400Gbps IB NDR
跨 Rail	ToR → Spine	IB NDR 400Gbps
跨 SuperPOD	Spine → Core	IB NDR 400Gbps

@tbl-topo-vd-superpod SuperPOD 层级

Rail-Optimized 设计要点：

每 DGX H100 的 8 GPU 各有一个 ConnectX-7 NIC (400Gbps)
同编号 GPU 连同一 ToR （称 Rail）
DP AllReduce 天然在 Rail 内完成，不需 Spine
Spine 只处理 TP/PP 跨节点和少量跨 Rail 流量

带宽断崖：NVLink 900 GB/s vs IB 400Gbps (50 GB/s) = 18:1。这是并行策略映射的核心约束 — TP 必须在 NVLink 域内，PP/DP 走网络。NVL72 断崖更大：1,800 GB/s vs 400Gbps = 36:1。

SHARP 网内计算

NVIDIA SHARP 在 IB Quantum 上实现网内 AllReduce[4] (@tbl-topo-vd-sharp):

指标	无 SHARP	有 SHARP
AllReduce 延迟	$2 \log_2 N \cdot \alpha$	$\log_2 N \cdot \alpha$
网络总传输量	$2 \cdot \frac{N-1}{N} \cdot M$	$\frac{N-1}{N} \cdot M$
实测改善	基准	延迟降 2×，有效带宽提升 30-50%

@tbl-topo-vd-sharp SHARP 性能

SHARP 要求 Mellanox/NVIDIA Quantum IB 交换机，是 NVIDIA IB 生态的护城河之一。

实测和典型集群

配置	消息大小	AllReduce 带宽	来源
8× H100 NVLink	1 GB	~450 GB/s (bus BW)	NVIDIA 官方
32× H100 IB NDR	1 GB	~380 Gbps (per GPU)	nccl-tests
NVL72 NVLink	1 GB	~839 GB/s (bus BW)	CoreWeave nccl-tests
NVL72 AllGather	1 GB	~1,600 GB/s (bus BW)	CoreWeave nccl-tests

@tbl-topo-vd-nv-bench NVIDIA 实测数据

典型集群 (@tbl-topo-vd-nv-cluster):

集群	规模	节点内	节点间
NVIDIA Eos	10,752 H100	NVSwitch 全互联	IB NDR Fat-tree
xAI Colossus	100,000 H100	NVSwitch 全互联	IB Fat-tree
CoreWeave	1,440 B200	NVL72	IB XDR + SHARP
Meta RSC	16,384 A100	NVSwitch 全互联	IB HDR Fat-tree
Oracle OCI	~16,000 H100	NVSwitch 全互联	IB NDR Fat-tree

@tbl-topo-vd-nv-cluster NVIDIA 典型集群

Google TPU：为什么用 3D Torus 单拓扑到底？

自研 TPU 芯片可集成 ICI 端口，无需外部交换机直接构建 Torus[5]。

所有 TPU 芯片地位平等，不区分"节点内"和"节点间"。跨机架用 OCS 光路交换将电信号转为光信号传输，逻辑上仍是 Torus 一部分。

TPU 代际演进

代际	拓扑	维度配置	Pod 规模	每芯片 ICI 带宽	关键变化
v2 (2017)	2D Torus	16×16	256	~500 Gbps	首个 TPU Pod
v3 (2018)	2D Torus	~32×32	1,024	~656 Gbps	规模 4×
v4 (2020)	3D Torus	4×4×4 cube, OCS 重配	4,096	~2.4 Tbps	加入 OCS 层
v5p (2023)	3D Torus	16×20×28	8,960	~4.8 Tbps	最大 Torus Pod
Trillium v6e (2024)	2D Torus	16×16	256	~6.4 Tbps	回退 2D，带宽提升
Ironwood v7 (2025)	3D Torus	多维	9,216	~9.6 Tbps	最大 ICI 带宽

@tbl-topo-vd-tpu-gen TPU 代际演进

TPU v4: 4×4×4 cube + OCS 重配

每颗 v4 有 6 个 ICI 端口（3 维 × 2 方向），每端口 ~400 Gbps，总 ~2.4 Tbps
基本块 4×4×4 cube (64 chips)，物理上一个 rack
cube 间通过 OCS 动态连接，可灵活组合（8×8×64, 4×16×64 等）

OCS 层：每 4×4 slice 有 16 颗芯片的 Z 维出口端口，OCS 动态连到其他 slice 对应端口。支持将 4096 芯片灵活划分为多个独立 Torus 子集群（如同时跑 4×4×128 和两个 4×4×64）。

TPU v4 常见拓扑配置@fig-topo-vd-tpu-v4-topo

TPU v4 Torus 环绕边@fig-topo-vd-tpu-v4-torus

Trillium v6e 为什么回退到 2D？

每芯片 ICI 带宽提升至 ~6.4 Tbps，4 个 ICI 端口（2D × 2 方向）
回到 2D Torus (16×16 = 256 chips/pod)，大规模扩展完全交跨 Pod OCS
设计哲学转变：Pod 内用高带宽小规模 Torus，Pod 间用 OCS 弹性扩展

与 NVIDIA 方案对比

维度	NVIDIA	Google TPU
节点内拓扑	Full Mesh (NVSwitch)	无"节点内"概念
节点间拓扑	Fat-tree (IB)	同一 Torus
带宽断崖	18-36× (NVLink vs IB)	无断崖
交换机	需大量 IB 交换机	无交换机（直连 Torus）
灵活性	标准化、多厂商	自研、定制化
AllToAll 效率	高（Fat-tree 全割集）	低（Torus 割集不足）
网络成本占 TCO	30-40%	<10%

@tbl-topo-vd-nv-vs-tpu NVIDIA vs Google TPU

Meta：为什么选 RoCE 而非 IB？

Meta 是唯一大规模 AI 训练集群主动选 RoCE 的厂商[6][7]。

动机：

供应商多样性：避免锁定 NVIDIA/Mellanox 生态
运维一致性：AI 训练与存储、管理流量共用同一以太网
成本：以太网交换机比 IB 便宜 30-50%
开源控制：Arista/Broadcom 交换机 + 自研 SDN

网络架构

参数	值
拓扑	5-tier Clos
过订阅比	1:1 （全带宽无阻塞）
拥塞控制	PFC + ECN + DCQCN + E-ECMP
负载均衡	ECMP + 自适应包喷射
交换机	Arista 7800R3 (Spine) + 7060X5 (Leaf)
单 GPU 上行	400GbE × 1 NIC

@tbl-topo-vd-meta Meta 网络架构

5-tier 而非 3-tier 的原因：35K+ GPU 端口数超 3-tier Fat-tree 在 400GbE 下的容量。5-tier (Leaf → T1-T4 Spine) 提供足够端口密度。

RoCE vs IB 权衡

维度	RoCE (Meta)	IB (NVIDIA)
交换机成本	~$625-860/port	~$940-1170/port
拥塞控制	软件 (DCQCN)	硬件 (Credit-based)
无损保证	需 PFC + ECN 调优	原生信用流控
网内计算	无	SHARP
生态锁定	多厂商	单厂商

@tbl-topo-vd-roce-vs-ib RoCE vs IB

E-ECMP: Meta 在标准 ECMP 基础上开发增强版，结合自适应包喷射，在 Elephant flow 场景下将链路利用率从 ~60% 提升至 ~90%。

Llama 3 实测：16,384 颗 H100 训练 Llama 3 405B，整体 MFU 38-43%。网络是主要瓶颈 — 跨节点 AllReduce 占 DP 通信 ~30%[8]。

典型集群

集群	规模	节点	网络
Meta RSC v1	6,144 A100	Grand Teton	IB HDR Fat-tree
Meta RSC v2	16,384 A100	Grand Teton	IB HDR Fat-tree
Meta AI Cluster	35,000+ H100	Grand Teton v2	RoCE 400GbE 5-tier Clos

@tbl-topo-vd-meta-cluster Meta 典型集群

AMD：封装内 Ring + 集群 Dragonfly

核心问题：AMD MI300X 的封装内拓扑是什么、为什么选 Ring、集群级为什么用 Dragonfly？

MI300X 封装内拓扑

8 个 XCD 排列在中央 IOD 周围，通过 IF4 环形连接[9]:

参数	值
XCD 数	8
连接方式	环形（每 XCD 连相邻 2 个）
相邻 XCD 间带宽	~200 GB/s
2-hop XCD 间带宽	~50-70 GB/s （经中间转发）
总封装内带宽	~896 GB/s 聚合

@tbl-topo-vd-mi300x MI300X 封装内拓扑

MI300X 节点级架构@fig-topo-vd-mi300x

与 NVSwitch 关键差异：NVSwitch 全互联（任意 GPU 等带宽），MI300X 环形导致非相邻 Die 带宽显著衰减。RCCL 需感知拓扑优化通信路径。

8-GPU 实测：MI300X 8-GPU 节点 RCCL AllReduce 实测 750-800 GB/s，接近理论峰值 ~896 GB/s 的 84-89%。

跨封装互联

MI300X 跨封装通过 PCIe Gen5 x16 (~63 GB/s) 或 Infinity Fabric over PCIe，远低于 NVLink。这是 AMD 方案在 TP 场景的主要短板。

集群级拓扑

AMD GPU 无自研集群互联，依赖第三方：

集群	规模	互联	拓扑
El Capitan (LLNL)	44,544 MI300A	HPE Slingshot-11	Dragonfly
Frontier (ORNL)	37,888 MI250X	HPE Slingshot-11	Dragonfly

@tbl-topo-vd-amd-cluster AMD 集群部署

AMD GPU 集群倾向 Dragonfly 而非 Fat-tree，是因 HPE Cray 集成商 Slingshot 是其自研互联。

Intel Gaudi：统一 RoCEv2 拓扑

核心问题：Intel Gaudi 为什么选全 RoCEv2 统一拓扑、不用专用互联协议？

Gaudi 是唯一不区分节点内/节点间互联协议的方案 — 全部 RoCEv2[10]。

Gaudi3 架构

参数	值
每芯片 RoCEv2 端口	24 × 200Gbps
片上以太网交换引擎	内置
端口分配	21 端口 scale-up + 3 端口 scale-out
节点内连接	8 芯片用 21 端口/芯片全互联 Mesh （每对 3 条链路）
节点间连接	3 端口/芯片连外部以太网交换机
每芯片聚合带宽	4.8 Tbps (24 × 200G)
节点内带宽	4.2 Tbps/芯片 (21 × 200G)
节点间带宽	600 Gbps/芯片 (3 × 200G)

@tbl-topo-vd-gaudi3 Gaudi3 架构

21/3 端口分配决定 7:1 带宽断崖：协议相同（都是 RoCEv2），但物理端口数量不对称仍造成带宽层级差异。

Gaudi3 端口拓扑@fig-topo-vd-gaudi3

统一协议权衡：

维度	优势	劣势
协议统一	节点内外同一协议，运维简单	-
扩展平滑性	8 到数百芯片通信模式一致	-
带宽断崖	-	21/3 仍 7:1
节点内带宽	-	~525 GB/s 双向，低于 NVLink 900-1800

@tbl-topo-vd-gaudi-tradeoff Gaudi 统一协议权衡

华为昇腾：HCCS → UB-Mesh 三代演进

核心问题：华为昇腾从 HCCS 到 UB-Mesh 经历了哪三代演进、各代节点内/间拓扑如何变化？

三代技术路线

阶段	产品	节点内互联	规模
第一代	Ascend 910B	HCCS （电互联）	8 NPU 全互联
第二代	CloudMatrix 384	UB 全光（L1/L2 交换）	384 NPU
第三代	UB-Mesh	分层 nD 全互联	8K+ NPU

@tbl-topo-vd-hw-gen 华为互联三代演进

UB (Ultra Bus / Unified Bus)：华为自研，设计目标统一替代 PCIe / CXL / NVLink / TCP/IP。Hot Chips 2025 宣布计划开源 UB-Mesh。

Ascend 910C UB 端口规格

每颗 910C 是双 Die 封装 （两个 910B Die 集成在同一基板）：

参数	值
Die 数	2
UB 链路/Die	7 × 224 Gbps （原始 SerDes）
总 UB 带宽/芯片	~2.8 Tbps （14 链路 × ~200 Gbps 有效）
光模块	14 × 400G LPO/芯片

@tbl-topo-vd-910c Ascend 910C UB 端口规格

注意单位：华为 2.8 Tbps 用"比特"；NVLink 5.0 的 1.8 TB/s 用"字节" (= 14.4 Tbps)。换算后 NVLink 5.0 单芯片带宽约 UB 的 5 倍，华为以规模优势 (384 NPU vs 72 GPU) 补偿单芯片带宽差距[11][12]。

CloudMatrix 384 物理架构

16 机架，384 NPU + 192 鲲鹏 CPU：

组件	数量	说明
计算机架	12	每机架 32 NPU （4 节点 × 8 NPU/节点）
通信机架	4	容纳 L2 UB 交换芯片
总机架数	16
400G 光模块总量	6,912	UB 平面 5,376 + RDMA/VPC

@tbl-topo-vd-cm384 CloudMatrix 384 物理架构

两级非阻塞交换：每 NPU （14 个 400G 光口） → 本节点 L1 UB 交换机（7 颗） → 通信机架 L2 UB （7 子平面 × 16 芯片/平面，每芯片 48 端口）。

关键性能 ([CloudMatrix LLM Serving][13]):

跨节点带宽衰减 <3% （相对节点内）
跨节点延迟增加 <1 μs
支持 EP320 （跨 320 颗 NPU 的 Expert Parallelism）

UB-Mesh 分层架构 (8K+ NPU)

维度	规模	互联介质
1D-2D （机架内）	64 NPU （8×8 全互联）	无源铜缆 (~1m)
3D-4D （Pod 内）	1,024 NPU/Pod （16 机架）	有源铜缆/光纤
5D+ （跨 Pod）	8K+ NPU	Clos 骨干

@tbl-topo-vd-ub-mesh UB-Mesh 分层架构

UB-Mesh vs Clos 声明优势 （论文 Table 2）：少用 98% 高基数交换机 / 少用 93% 光模块 / 成本效率提升 2.04× / 训练吞吐达 Clos 93-96%。

推理性能基准

DeepSeek-R1 671B INT8 推理（384 NPU 全系统）：

指标	数值
Prefill 速度	6,688 tokens/s/NPU
Decode 速度	1,943 tokens/s/NPU (TPOT <50 ms)
Expert Parallelism 规模	EP320

@tbl-topo-vd-cm-bench CloudMatrix 推理基准

与 NVIDIA NVL72 对比

指标	CloudMatrix 384	GB200 NVL72
加速器数	384 NPU	72 GPU
每芯片互联带宽	2.8 Tbps	14.4 Tbps (1.8 TB/s)
全互联域规模	384 NPU	72 GPU
互联介质	全光 (400G LPO)	电气 NVLink + 光 NVSwitch 背板
系统 BF16 算力	300 PFLOPS	180 PFLOPS
机架数	16	1

@tbl-topo-vd-cm-vs-nvl72 CloudMatrix 384 vs NVL72

厂商拓扑决策总结

核心问题：六大厂商在节点内/间拓扑选择上的共同规律和关键分化是什么？

厂商	节点内	节点间	设计驱动力
NVIDIA	Full Mesh (NVSwitch)	Fat-tree (IB)	最大化 TP 带宽
Google	无节点概念	3D Torus (ICI)	自研芯片，消除带宽断崖
Meta	Full Mesh (NVSwitch)	5-tier Clos (RoCE)	供应商多样性，运维统一
AMD	Ring (IF4)	Dragonfly (Slingshot)	依赖 HPE 集成
Intel	Full Mesh （RoCEv2, 21 端口）	Fat-tree （RoCEv2, 3 端口）	统一协议，7:1 带宽比
华为	HCCS (910B) / UB L1-L2 (CM384)	Spine-Leaf (RoCE)	CM384 光互联跨机架

@tbl-topo-vd-summary 厂商拓扑决策总结

核心洞察：

只有 Google 真正消除带宽断崖 — 自研芯片可集成 ICI，用同一互联贯穿全 Pod。Intel Gaudi 虽协议统一，但 21/3 端口分配仍造成 7:1 带宽比
Fat-tree 是商用 GPU 集群的唯一选择 — NVIDIA/AMD GPU 网络端口是标准 PCIe/以太网/IB，不支持直连 Torus
Dragonfly 只在 HPC 超算中出现 — El Capitan、Frontier 用 Dragonfly 是因 HPE Cray 集成商的 Slingshot，不代表 AI 行业趋势
RoCE vs IB 是成本-性能权衡 — Meta 和华为选 RoCE 看重成本和生态多样性，NVIDIA 推 IB 看重性能（SHARP、硬件流控）。长期趋势偏向以太网（UEC 在标准化 AI 训练以太网优化）
全互联域规模竞赛加剧 — 从 NVL72 (72) 到 CloudMatrix 384 (384) 规模快速扩大。更大全互联域 = 更大 TP 组 = 容纳更大模型 TP 分片无需跨断崖

Takeaway

知识点	核心结论
6 厂商分化	NVIDIA 全互联+FT / Google 单 Torus / Meta RoCE / AMD Ring+Dragonfly / Intel 统一 RoCEv2 / 华为 HCCS→UB-Mesh
唯一无断崖	Google TPU （自研芯片集成 ICI）
Fat-tree 主流	商用 GPU 集群唯一选择（端口标准化）
Dragonfly 边界	仅 HPC 超算（HPE Cray 集成）
RoCE vs IB	Meta 和华为选 RoCE 重成本，NVIDIA 推 IB 重性能 (SHARP)
全互联域规模	NVL72 (72) → CloudMatrix 384 (384)，竞赛加剧
带宽口径陷阱	华为 Tbps (bits)，NVIDIA TB/s (bytes)，需换算才能对比

参考资料

NVIDIA, DGX SuperPOD Reference Architecture. https://docs.nvidia.com/dgx-superpod/reference-architecture-scalable-infrastructure-h100/latest/dgx-superpod-components.html
NVIDIA, DGX H100 Whitepaper. https://resources.nvidia.com/en-us-dgx-systems/ai-enterprise-dgx
NVIDIA, GB200 NVL72. https://www.nvidia.com/en-us/data-center/gb200-nvl72/
NVIDIA, SHARP Documentation. https://docs.nvidia.com/networking/display/shaborev300
Jouppi N. et al., TPU v4, ISCA 2023. https://arxiv.org/abs/2304.01433
Meta Engineering, Grand Teton Open GPU Hardware Platform, 2023-12-04. https://engineering.fb.com/2023/12/04/open-source/grand-teton-open-gpu-hardware-platform/
Meta, RoCE at Scale, SIGCOMM 2024. https://dl.acm.org/doi/10.1145/3651890.3672233
Meta, The Llama 3 Herd of Models, 2024. https://arxiv.org/abs/2407.21783
Chips and Cheese, MI300X Infinity Fabric Topology Analysis, 2024. https://chipsandcheese.com/2024/01/amd-mi300x-infinity-fabric-topology-analysis/
Intel, Gaudi3 AI Accelerator White Paper. https://www.intel.com/content/www/us/en/content-details/817486/intel-gaudi-3-ai-accelerator-white-paper.html
UB-Mesh: Unified Bus Mesh Architecture. https://arxiv.org/html/2503.20377v1
SemiAnalysis, Huawei AI CloudMatrix 384, 2025-04-16. https://semianalysis.com/2025/04/16/huawei-ai-cloudmatrix-384-chinas-answer-to-nvidia-gb200-nvl72/
Serving DeepSeek-R1 on Huawei CloudMatrix 384, 2025. https://arxiv.org/abs/2506.12708

各厂商拓扑层级总览​

NVIDIA：全互联 + Fat-tree 怎么分工？​

节点内：NVSwitch 全互联​

节点间：Rail-Optimized Fat-tree​

SHARP 网内计算​

实测和典型集群​

Google TPU：为什么用 3D Torus 单拓扑到底？​

TPU 代际演进​

TPU v4: 4×4×4 cube + OCS 重配​

Trillium v6e 为什么回退到 2D？​

与 NVIDIA 方案对比​

Meta：为什么选 RoCE 而非 IB？​

网络架构​

RoCE vs IB 权衡​

典型集群​

AMD：封装内 Ring + 集群 Dragonfly​

MI300X 封装内拓扑​

跨封装互联​

集群级拓扑​

Intel Gaudi：统一 RoCEv2 拓扑​

Gaudi3 架构​

华为昇腾：HCCS → UB-Mesh 三代演进​

三代技术路线​

Ascend 910C UB 端口规格​

CloudMatrix 384 物理架构​

UB-Mesh 分层架构 (8K+ NPU)​

推理性能基准​

与 NVIDIA NVL72 对比​

厂商拓扑决策总结​

Takeaway​

参考资料​