跳到主要内容

总览

本章节范围:AI 芯片之间的物理互联技术 — 节点内(NVLink / xGMI / ICI / HCCS / UALink)、节点间(InfiniBand / RoCE / UEC)、内存语义(CXL)、内部总线(PCIe / 灵衢 UB)。 目标读者:需要在大模型集群选型 / 性能建模 / 并行策略决策中理解互联约束的工程师。

范围与边界 (Scope)

名词定义

本章节所有概念型文档默认这些名词已定义,子文档只解释本文新引入的名词,不再重复,见 @tbl-hw-index-glossary

名词定义
节点内互联 (Intra-node Interconnect)同一服务器/机箱内芯片之间的直接互联,带宽通常数百 GB/s。代表:NVLink / xGMI / ICI / HCCS
节点间网络 (Inter-node Network)跨服务器互联,带宽通常数十 GB/s。代表:InfiniBand / RoCEv2 / UEC
片内互联 (Die-to-Die Interconnect)同一芯片封装内多裸片互联,带宽 TB/s 级,对用户透明
双向带宽 (Bidirectional Bandwidth)链路同时收发的聚合带宽,等于单向带宽的两倍。NVLink 通常以此口径报告
单端口线速 (Port Line Rate)交换机或网卡单端口全速传输速率。节点间网络以此口径报告
RDMA (Remote Direct Memory Access)绕过 CPU 直接在两台机器内存间传输数据,降低延迟和 CPU 占用。InfiniBand 和 RoCEv2 均基于此
Flit (Flow Control Unit)链路层流量控制最小单元。一个数据包由多个 flit 组成,flit 大小决定协议效率
协议效率 (Protocol Efficiency)有效载荷占总传输数据(含协议头)的比例
BusBW (Bus Bandwidth)nccl-tests 报告的总线带宽,按 Ring 算法流量因子 $2(N-1)/N$ 折算,便于跨规模比较
AlgBW (Algorithm Bandwidth)MessageSize / Time,不含流量因子的端到端吞吐
线速利用率AlgBW / 物理线速,衡量协议与软件效率

@tbl-hw-index-glossary 共享名词表

主要互联技术速查

节点内和节点间互联属于不同层级,带宽口径不同,不可直接横比,见 @tbl-hw-index-intra@tbl-hw-index-inter

节点内(每芯片聚合双向带宽)

技术厂商带宽 (双向/芯片)代表产品
NVLink 5.0NVIDIA1800 GB/sB200 / GB200 NVL72
NVLink 4.0NVIDIA900 GB/sH100 / H200
NVLink 3.0NVIDIA600 GB/sA100
xGMI / Infinity FabricAMD896 GB/sMI300X
ICI (Ironwood/TPU7x)Google~1200 GB/sTPU7x
ICI (TPU v4)Google~576 GB/sTPU v4
Gaudi 3 RoCEIntel600 GB/sGaudi 3
HCCS (910B)华为~400-560 GB/s(估)昇腾 910B
PCIe Gen5 x16通用126 GB/s基线
PCIe Gen4 x16通用63 GB/s基线

@tbl-hw-index-intra 节点内互联速查

节点间(单端口线速)

技术单端口带宽延迟代表部署
InfiniBand XDR800 Gbps (~100 GB/s)~1-2 usDGX B200
InfiniBand NDR400 Gbps (~50 GB/s)~1-2 usDGX H100
InfiniBand HDR200 Gbps (~25 GB/s)~1-2 usDGX A100
RoCEv2 (400GbE)400 Gbps (~50 GB/s)~2-5 usMeta 24K GPU 集群

@tbl-hw-index-inter 节点间网络速查

在大模型集群中的层级角色

互联按物理层级分四档,各层带宽差异决定哪种并行策略最优,见 @tbl-hw-index-roles

层级带宽延迟代表技术主要承载
片内 Die-to-DieTB/s 级ns 级MI300X chiplet xGMI / SG2262 D2D单芯片内裸片搬运(对用户透明)
节点内 Chip-to-Chip数百 GB/s1-2 usNVLink / xGMI / ICI / HCCS / PAXITP AllReduce(延迟敏感)
机架内跨节点数十 GB/s2-5 usIB NDR/XDR / RoCEv2PP P2P;DP 梯度同步
跨机架 / 跨 Pod数十 GB/s5-20 usIB Fat-tree / RoCE SpineEP AllToAll;大规模 DP

@tbl-hw-index-roles 互联层级与并行策略对应

关键结论:同一 GPU 在不同互联条件下,集合通信性能可相差 10× 以上。选并行策略的核心是把通信量大的操作(TP AllReduce)落在带宽最高的层级(节点内)。

子文档索引 (Index)