总览
本章节范围:AI 芯片之间的物理互联技术 — 节点内(NVLink / xGMI / ICI / HCCS / UALink)、节点间(InfiniBand / RoCE / UEC)、内存语义(CXL)、内部总线(PCIe / 灵衢 UB)。 目标读者:需要在大模型集群选型 / 性能建模 / 并行策略决策中理解互联约束的工程师。
范围与边界 (Scope)
- 包含:各互联协议的物理规格、协议栈、带宽口径、代际演进、在大模型集群中的角色定位。
- 不包含:网络拓扑设计(→ 02-网络拓扑)、路由算法(→ 03-路由算法)、集合通信原语(→ 04-集合通信)、通信性能建模公式(→ 06-通信性能建模)。
名词定义
本章节所有概念型文档默认这些名词已定义,子文档只解释本文新引入的名词,不再重复,见 @tbl-hw-index-glossary。
| 名词 | 定义 |
|---|---|
| 节点内互联 (Intra-node Interconnect) | 同一服务器/机箱内芯片之间的直接互联,带宽通常数百 GB/s。代表:NVLink / xGMI / ICI / HCCS |
| 节点间网络 (Inter-node Network) | 跨服务器互联,带宽通常数十 GB/s。代表:InfiniBand / RoCEv2 / UEC |
| 片内互联 (Die-to-Die Interconnect) | 同一芯片封装内多裸片互联,带宽 TB/s 级,对用户透明 |
| 双向带宽 (Bidirectional Bandwidth) | 链路同时收发的聚合带宽,等于单向带宽的两倍。NVLink 通常以此口径报告 |
| 单端口线速 (Port Line Rate) | 交换机或网卡单端口全速传输速率。节点间网络以此口径报告 |
| RDMA (Remote Direct Memory Access) | 绕过 CPU 直接在两台机器内存间传输数据,降低延迟和 CPU 占用。InfiniBand 和 RoCEv2 均基于此 |
| Flit (Flow Control Unit) | 链路层流量控制最小单元。一个数据包由多个 flit 组成,flit 大小决定协议效率 |
| 协议效率 (Protocol Efficiency) | 有效载荷占总传输数据(含协议头)的比例 |
| BusBW (Bus Bandwidth) | nccl-tests 报告的总线带宽,按 Ring 算法流量因子 $2(N-1)/N$ 折算,便于跨规模比较 |
| AlgBW (Algorithm Bandwidth) | MessageSize / Time,不含流量因子的端到端吞吐 |
| 线速利用率 | AlgBW / 物理线速,衡量协议与软件效率 |
@tbl-hw-index-glossary 共享名词表
主要互联技术速查
节点内和节点间互联属于不同层级,带宽口径不同,不可直接横比,见 @tbl-hw-index-intra、@tbl-hw-index-inter。
节点内(每芯片聚合双向带宽)
| 技术 | 厂商 | 带宽 (双向/芯片) | 代表产品 |
|---|---|---|---|
| NVLink 5.0 | NVIDIA | 1800 GB/s | B200 / GB200 NVL72 |
| NVLink 4.0 | NVIDIA | 900 GB/s | H100 / H200 |
| NVLink 3.0 | NVIDIA | 600 GB/s | A100 |
| xGMI / Infinity Fabric | AMD | 896 GB/s | MI300X |
| ICI (Ironwood/TPU7x) | ~1200 GB/s | TPU7x | |
| ICI (TPU v4) | ~576 GB/s | TPU v4 | |
| Gaudi 3 RoCE | Intel | 600 GB/s | Gaudi 3 |
| HCCS (910B) | 华为 | ~400-560 GB/s(估) | 昇腾 910B |
| PCIe Gen5 x16 | 通用 | 126 GB/s | 基线 |
| PCIe Gen4 x16 | 通用 | 63 GB/s | 基线 |
@tbl-hw-index-intra 节点内互联速查
节点间(单端口线速)
| 技术 | 单端口带宽 | 延迟 | 代表部署 |
|---|---|---|---|
| InfiniBand XDR | 800 Gbps (~100 GB/s) | ~1-2 us | DGX B200 |
| InfiniBand NDR | 400 Gbps (~50 GB/s) | ~1-2 us | DGX H100 |
| InfiniBand HDR | 200 Gbps (~25 GB/s) | ~1-2 us | DGX A100 |
| RoCEv2 (400GbE) | 400 Gbps (~50 GB/s) | ~2-5 us | Meta 24K GPU 集群 |
@tbl-hw-index-inter 节点间网络速查
在大模型集群中的层级角色
互联按物理层级分四档,各层带宽差异决定哪种并行策略最优,见 @tbl-hw-index-roles。
| 层级 | 带宽 | 延迟 | 代表技术 | 主要承载 |
|---|---|---|---|---|
| 片内 Die-to-Die | TB/s 级 | ns 级 | MI300X chiplet xGMI / SG2262 D2D | 单芯片内裸片搬运(对用户透明) |
| 节点内 Chip-to-Chip | 数百 GB/s | 1-2 us | NVLink / xGMI / ICI / HCCS / PAXI | TP AllReduce(延迟敏感) |
| 机架内跨节点 | 数十 GB/s | 2-5 us | IB NDR/XDR / RoCEv2 | PP P2P;DP 梯度同步 |
| 跨机架 / 跨 Pod | 数十 GB/s | 5-20 us | IB Fat-tree / RoCE Spine | EP AllToAll;大规模 DP |
@tbl-hw-index-roles 互联层级与并行策略对应
关键结论:同一 GPU 在不同互联条件下,集合通信性能可相差 10× 以上。选并行策略的核心是把通信量大的操作(TP AllReduce)落在带宽最高的层级(节点内)。
子文档索引 (Index)
- 1.2 NVLink — NVLink 协议规格、Flit 结构、带宽效率
- 1.3 NVSwitch + NVLS — NVSwitch 交换架构、NVLS 网内计算
- 1.4 InfiniBand — InfiniBand HDR/NDR/XDR 规格、RDMA 传输
- 1.5 RoCE (RDMA over Converged Ethernet) — RoCE v1/v2 协议栈、拥塞控制
- 1.6 PCIe — PCIe 代际规格、基线角色
- 1.7 AMD xGMI / Infinity Fabric — AMD xGMI / Infinity Fabric、MI300X 互联
- 1.8 Google TPU ICI — Google TPU ICI、Torus / Mesh 拓扑
- 1.9 国产互联方案 — HCCS、PAXI、SG2262 C2C 等国产技术
- 1.10 UALink 1.0 — UALink 1.0 开放 accelerator fabric 协议栈、Pod 结构、生态时间线
- 1.11 Ultra Ethernet (UEC) — Ultra Ethernet (UEC) 1.0 协议栈、packet spraying、UET 传输层
- 1.12 CXL — CXL 三子协议(io/cache/mem)、Type 1/2/3、2.0-4.0 演进、Switch/Pooling/Fabric 拓扑
- 1.14 AI 互联标准对比 — scale-up / scale-out / memory-semantic 三层标准横向对比
- 1.15 灵衢总线 (UB) — 灵衢总线 (UB) 协议栈、拓扑域与软硬件分工
- 1.16 Atlas 950 超节点 (SuperPoD) — Atlas 950 超节点 (SuperPoD):昇腾 950DT 芯片、UB-Mesh 拓扑、统一内存架构