总览

本章节范围：AI 芯片之间的物理互联技术 — 节点内（NVLink / xGMI / ICI / HCCS / UALink）、节点间（InfiniBand / RoCE / UEC）、内存语义（CXL）、内部总线（PCIe / 灵衢 UB）。 目标读者：需要在大模型集群选型 / 性能建模 / 并行策略决策中理解互联约束的工程师。

范围与边界 (Scope)

包含：各互联协议的物理规格、协议栈、带宽口径、代际演进、在大模型集群中的角色定位。
不包含：网络拓扑设计（→ 02-网络拓扑）、路由算法（→ 03-路由算法）、集合通信原语（→ 04-集合通信）、通信性能建模公式（→ 06-通信性能建模）。

名词定义

本章节所有概念型文档默认这些名词已定义，子文档只解释本文新引入的名词，不再重复，见 @tbl-hw-index-glossary。

名词	定义
节点内互联 (Intra-node Interconnect)	同一服务器/机箱内芯片之间的直接互联，带宽通常数百 GB/s。代表：NVLink / xGMI / ICI / HCCS
节点间网络 (Inter-node Network)	跨服务器互联，带宽通常数十 GB/s。代表：InfiniBand / RoCEv2 / UEC
片内互联 (Die-to-Die Interconnect)	同一芯片封装内多裸片互联，带宽 TB/s 级，对用户透明
双向带宽 (Bidirectional Bandwidth)	链路同时收发的聚合带宽，等于单向带宽的两倍。NVLink 通常以此口径报告
单端口线速 (Port Line Rate)	交换机或网卡单端口全速传输速率。节点间网络以此口径报告
RDMA (Remote Direct Memory Access)	绕过 CPU 直接在两台机器内存间传输数据，降低延迟和 CPU 占用。InfiniBand 和 RoCEv2 均基于此
Flit (Flow Control Unit)	链路层流量控制最小单元。一个数据包由多个 flit 组成，flit 大小决定协议效率
协议效率 (Protocol Efficiency)	有效载荷占总传输数据（含协议头）的比例
BusBW (Bus Bandwidth)	nccl-tests 报告的总线带宽，按 Ring 算法流量因子 $2(N-1)/N$ 折算，便于跨规模比较
AlgBW (Algorithm Bandwidth)	`MessageSize / Time`，不含流量因子的端到端吞吐
线速利用率	`AlgBW / 物理线速`，衡量协议与软件效率

@tbl-hw-index-glossary 共享名词表

主要互联技术速查

节点内和节点间互联属于不同层级，带宽口径不同，不可直接横比，见 @tbl-hw-index-intra、@tbl-hw-index-inter。

节点内（每芯片聚合双向带宽）

技术	厂商	带宽（双向/芯片）	代表产品
NVLink 5.0	NVIDIA	1800 GB/s	B200 / GB200 NVL72
NVLink 4.0	NVIDIA	900 GB/s	H100 / H200
NVLink 3.0	NVIDIA	600 GB/s	A100
xGMI / Infinity Fabric	AMD	896 GB/s	MI300X
ICI (Ironwood/TPU7x)	Google	~1200 GB/s	TPU7x
ICI (TPU v4)	Google	~576 GB/s	TPU v4
Gaudi 3 RoCE	Intel	600 GB/s	Gaudi 3
HCCS (910B)	华为	~400-560 GB/s（估）	昇腾 910B
PCIe Gen5 x16	通用	126 GB/s	基线
PCIe Gen4 x16	通用	63 GB/s	基线

@tbl-hw-index-intra 节点内互联速查

节点间（单端口线速）

技术	单端口带宽	延迟	代表部署
InfiniBand XDR	800 Gbps (~100 GB/s)	~1-2 us	DGX B200
InfiniBand NDR	400 Gbps (~50 GB/s)	~1-2 us	DGX H100
InfiniBand HDR	200 Gbps (~25 GB/s)	~1-2 us	DGX A100
RoCEv2 (400GbE)	400 Gbps (~50 GB/s)	~2-5 us	Meta 24K GPU 集群

@tbl-hw-index-inter 节点间网络速查

在大模型集群中的层级角色

互联按物理层级分四档，各层带宽差异决定哪种并行策略最优，见 @tbl-hw-index-roles。

层级	带宽	延迟	代表技术	主要承载
片内 Die-to-Die	TB/s 级	ns 级	MI300X chiplet xGMI / SG2262 D2D	单芯片内裸片搬运（对用户透明）
节点内 Chip-to-Chip	数百 GB/s	1-2 us	NVLink / xGMI / ICI / HCCS / PAXI	TP AllReduce（延迟敏感）
机架内跨节点	数十 GB/s	2-5 us	IB NDR/XDR / RoCEv2	PP P2P；DP 梯度同步
跨机架 / 跨 Pod	数十 GB/s	5-20 us	IB Fat-tree / RoCE Spine	EP AllToAll；大规模 DP

@tbl-hw-index-roles 互联层级与并行策略对应

关键结论：同一 GPU 在不同互联条件下，集合通信性能可相差 10× 以上。选并行策略的核心是把通信量大的操作（TP AllReduce）落在带宽最高的层级（节点内）。

子文档索引 (Index)

1.2 NVLink — NVLink 协议规格、Flit 结构、带宽效率
1.3 NVSwitch + NVLS — NVSwitch 交换架构、NVLS 网内计算
1.4 InfiniBand — InfiniBand HDR/NDR/XDR 规格、RDMA 传输
1.5 RoCE (RDMA over Converged Ethernet) — RoCE v1/v2 协议栈、拥塞控制
1.6 PCIe — PCIe 代际规格、基线角色
1.7 AMD xGMI / Infinity Fabric — AMD xGMI / Infinity Fabric、MI300X 互联
1.8 Google TPU ICI — Google TPU ICI、Torus / Mesh 拓扑
1.9 国产互联方案 — HCCS、PAXI、SG2262 C2C 等国产技术
1.10 UALink 1.0 — UALink 1.0 开放 accelerator fabric 协议栈、Pod 结构、生态时间线
1.11 Ultra Ethernet (UEC) — Ultra Ethernet (UEC) 1.0 协议栈、packet spraying、UET 传输层
1.12 CXL — CXL 三子协议（io/cache/mem）、Type 1/2/3、2.0-4.0 演进、Switch/Pooling/Fabric 拓扑
1.14 AI 互联标准对比 — scale-up / scale-out / memory-semantic 三层标准横向对比
1.15 灵衢总线 (UB) — 灵衢总线 (UB) 协议栈、拓扑域与软硬件分工
1.16 Atlas 950 超节点 (SuperPoD) — Atlas 950 超节点 (SuperPoD)：昇腾 950DT 芯片、UB-Mesh 拓扑、统一内存架构

被引用于（15）

Tier6-Model 文档
大模型通信互联知识库
Atlas 950 超节点 (SuperPoD)interconnect / 硬件互联
CXLinterconnect / 硬件互联
UALink 1.0interconnect / 硬件互联
Ultra Ethernet (UEC)interconnect / 硬件互联
AI 互联标准对比interconnect / 硬件互联
灵衢总线 (UB)interconnect / 硬件互联
总览interconnect / 网络拓扑
总览interconnect / 集合通信
端口模型interconnect / 集合通信
分布式 Checkpoint 通信interconnect / 集群可靠性
Chiplet D2D 标准knowledge / 先进封装与片间互联
先进封装与片间互联 — 总览knowledge / 先进封装与片间互联
Interconnect 资源域knowledge / 推理性能建模

范围与边界 (Scope)​

名词定义​

主要互联技术速查​

在大模型集群中的层级角色​

子文档索引 (Index)​

范围与边界 (Scope)

名词定义

主要互联技术速查

在大模型集群中的层级角色

子文档索引 (Index)