跳到主要内容

AI 互联标准对比

scale-up、scale-out、memory-semantic 三层互联标准的横向规格对比

核心要点

  • 按通信跨度分三层:scale-up (Pod 内 load/store) / scale-out (跨 Pod RDMA) / memory-semantic (CXL)
  • scale-up: NVLink (NVL72 72 GPU 私有) vs UALink 1.0 (1024 加速器开放) vs AMD xGMI (8 GPU)
  • scale-out: IB XDR (800 Gbps 封闭) vs RoCEv2 (开放需 PFC 调优) vs UEC 1.0 (开放对标 IB)
  • memory-semantic: CXL 4.0 (PCIe 7.0),仍主要做 CPU-内存扩展,未规模替代 scale-up
  • 趋势:scale-up 域规模放大 + 开放标准追赶私有 + scale-up/out 边界互相挤压

本文把当前 AI 集群主流互联标准放同一张表横比。各标准协议细节、代际演进、性能模型见专题文档 (NVLink/NVSwitch/IB/RoCE/PCIe/UALink/UEC/CXL)。

本文新引入名词 (其他名词见 1.1 总览 Glossary):

  • scale-up: Pod 内通过专用低延迟互联把多加速器组合成"逻辑大芯片",支持 load/store,域规模 8-1024 加速器
  • scale-out:跨 Pod / 机柜把多个 scale-up 域连成大集群,走 RDMA 消息语义,域规模数万-百万 endpoint
  • memory-semantic: CPU / 加速器与内存池之间走 cache-coherent 协议
  • Fabric:多端口可路由互联网络
  • In-Network Compute:网内计算 (NVLS / SHARP)

三层分类框架是什么?

按协议语义分层,不按物理介质 (都可以是铜缆/光纤):

┌─────────────────────────────────────────────────────────────┐
│ Memory-Semantic : CXL (CPU <-> 内存池/加速器, 缓存一致) │
├─────────────────────────────────────────────────────────────┤
│ scale-up : NVLink / NVSwitch / UALink / xGMI │
│ (Pod 内 8-1024 加速器, load/store) │
├─────────────────────────────────────────────────────────────┤
│ scale-out : InfiniBand / RoCEv2 / Ultra Ethernet │
│ (跨 Pod, 数万-百万 endpoint, RDMA) │
└─────────────────────────────────────────────────────────────┘

判断准则

  • load/store + Pod 域内全互联 → scale-up
  • send/recv + 跨 Pod 路由 → scale-out
  • cache 协议 + 一致性域 → memory-semantic

scale-up 域规模典型 8-1024 加速器:xGMI 8-GPU 是下限,NVL72 / UALink 1024 是上限。NVLink 5.0 通过 NVL72 已经把 scale-up 域扩到机柜级,UALink 1.0 明确支持 Pod 级 (最多 1024)。"机柜内 vs 机柜外"边界正在被 scale-up 标准向外推、scale-out 标准向内推 (UEC 直接对标 IB)。

主流标准的横向对比矩阵

核心问题:一张表里各互联标准在层级、速率、域规模、协议、主导方的关键参数如何排布?

完整对比见 @tbl-hw-stdcmp-matrix

标准层级定位单链路速率单加速器聚合带宽域规模协议层主导方1.0/当前版本时间
NVLink 4.0scale-upNVIDIA GPU 间直连 (H100)100 Gbps/lane PAM4, 25 GB/s/方向/link900 GB/s 双向 (18 link)8 GPU (HGX H100) / 256 GPU (NVL256)私有 flitNVIDIA2022 (Hopper)
NVLink 5.0scale-upNVIDIA GPU 间直连 (B200)200 Gbps/lane PAM4, 50 GB/s/方向/link1800 GB/s 双向 (18 link)72 GPU (NVL72)私有 flitNVIDIA2024 (Blackwell)
NVSwitch 4.0scale-upNVLink 域全交叉交换NVLink 5.0 物理层7.2 TB/s 总交换72 端口NVLink + NVLSNVIDIA2024
UALink 200G 1.0scale-up开放,对标 NVLink200 GT/s/lane (Ethernet PHY), 4 lane/Station = 800 Gbps/方向取决于 station 数1024 加速器开放,load/storeUALink Consortium2025-04
xGMI (Infinity Fabric)scale-upAMD GPU 间直连~32-64 GB/s/link896 GB/s 双向 (MI300X 8 卡)8 GPU (MI300X)AMD 私有AMDMI300X 2023-12
InfiniBand XDRscale-outHPC/AI 训练集群标准800 Gbps/端口~100 GB/s 单向万级节点IB 协议栈,原生 RDMANVIDIA/IBTA2025 (ConnectX-8)
InfiniBand NDRscale-out上一代主力400 Gbps/端口~50 GB/s 单向万级节点IB 协议栈NVIDIA/IBTA2022
RoCEv2scale-out以太网 + RDMA,成本敏感200/400/800 GbE~25-100 GB/s 单向万级节点UDP/IP + IB BTHIBTA + 以太网厂商2014
UEC 1.0scale-out开放 Ethernet,对标 IB800 Gbps 起步,路线至 1.6 Tbps端口聚合百万 endpointUET,原生 RDMAUEC (50+ 厂商)2025-06
CXL 3.1memory-semanticCPU/加速器内存池化与一致性64 GT/s/lane (PCIe 6.0),x16 = ~128 GB/s 双向x16 链路多级 Switch fabricio + cache + memCXL Consortium2023-11
CXL 4.0memory-semanticPCIe 7.0 带宽翻倍128 GT/s/lane (PCIe 7.0)双倍 CXL 3.x同上同上CXL Consortium2025-11

@tbl-hw-stdcmp-matrix 主流互联标准横向对比

scale-up 三家方案怎么分化?

亚微秒级延迟 + load/store 内存语义 + Pod 内全互联是共同要求,分化在协议私有度、域规模、开放性

NVLink 5.0 单 GPU 18 链路 × 100 GB/s/方向 = 1800 GB/s 双向;配 NVSwitch 4.0 (72 端口、7.2 TB/s 总交换) 可在 NVL72 机柜内做 72 GPU 单跳全互联。NVSwitch 内嵌 NVLS 归约引擎,AllReduce 可在交换芯片上完成,突破 Ring 的 $(N-1)/N$ 上限。详见 1.2 NVLink1.3 NVSwitch + NVLS

特点

  • 协议完全私有,NVIDIA 全栈控制
  • 当前唯一规模化部署的 scale-up 方案,客户拿到的就是 NVL72 整机
  • 同时是其他厂商的对标基准

UALink Consortium 由 AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft 于 2024-05 发起,2024-10 注册法人,2025-01 加入 Alibaba / Apple / Synopsys,2025-04 发布 1.0。

核心参数

  • 单 lane 200 GT/s,信令率 212.5 GT/s (含 Ethernet L1 FEC 开销)
  • 4 lane 一组 Station = 800 Gbps/方向
  • 加速器可挂多 station,聚合带宽随之扩展
  • UALink Switch 最多 1024 加速器一个 Pod,全 Pod 内 load/store
  • 设计目标:以太网级原始速度 + PCIe 交换机级延迟,93% 有效峰值带宽

与 NVLink 关键区别

  • PHY 复用 Ethernet SerDes (200G/lane) 而非完全私有信令
  • 多厂商可实现,AMD / Intel / Broadcom 都在做 silicon,量产硅片目标 2026 年底至 2027 年[1]
  • Pod 规模上限 1024 加速器,大于 NVL72 的 72 GPU

2026-04 UALink 发布 4 份补充规范,覆盖 in-network compute、chiplet、可管理性、200G 性能优化[2]。详见 1.10 UALink 1.0

xGMI (AMD Infinity Fabric)

xGMI 把 Infinity Fabric 延伸到 GPU 间的外部链路。MI300X 8-GPU 平台是 8 卡全互联 mesh,每 GPU 7 条 xGMI 链路,每条原始 64 GB/s 但实际可用约 48 GB/s。每对 GPU 双向带宽 128 GB/s;每 GPU 7 条 link 聚合 896 GB/s 双向[3][4]

xGMI 域规模目前仍 8 GPU 一组,无类似 NVSwitch 的专用交换芯片,跨 8 卡靠 RoCE/UALink 出域。详见 1.7 AMD xGMI / Infinity Fabric

scale-out 三家方案怎么分化?

跨机柜可路由 + 原生 RDMA + 万节点+ 是共同要求,分化在是否复用以太网、是否开放

InfiniBand (NVIDIA 主导)

NDR (400 Gbps) 和 XDR (800 Gbps) 是当前主力。核心优势:

  • 硬件信用流控,链路层天然无损 (不依赖 PFC)
  • Subnet Manager 全局路由控制
  • SHARP 网内计算,AllReduce 走 Tree 算法

代价:全栈 NVIDIA/Mellanox 主导,HCA + 交换机价格高。详见 1.4 InfiniBand

RoCEv2 (以太网 + RDMA)

把 IB 的 BTH 传输层封装在 UDP/IP,复用以太网交换机。代价是需 PFC + ECN + DCQCN 三件配合才能逼近无损以太网,配置复杂、有 PFC 死锁风险。规模适中场景 (<1000 GPU) 成本优势明显,大规模需精细化运维。

国内云厂商 (阿里 / 华为 / 字节 / 腾讯) 大规模部署 RoCEv2 替代 IB,详见 1.5 RoCE (RDMA over Converged Ethernet)

Ultra Ethernet 1.0

UEC 2023 年由 AMD / Intel / Broadcom / Cisco / Arista / Meta / Microsoft 发起,2025-06 发布 1.0,50+ 成员。目标:在标准以太网物理层上做新传输层 (UET),拿到 IB 级特性又保持以太网开放生态。

关键特性[5][6]:

  • 原生 RDMA 集成到链路层,不再像 RoCE 那样靠 BTH-over-UDP 转封装
  • Packet Spraying:端点用 Entropy Value (EV) 字段对每包独立选 ECMP 路径,端到端做 reorder。彻底突破"5 元组哈希一条流绑死一条路径"的限制
  • Selective Retransmission:收端按包级 ACK,只重传丢失包
  • LLR (Link-Level Retransmission):链路层 hop-by-hop 重传,把恢复时间压到链路时延量级
  • 端口起步 800 Gbps,路线图至 1.6 Tbps,规模目标百万 endpoint

Synopsys[7] 明确把 UEC 定位为"InfiniBand-class features on open Ethernet",即开放生态版的 IB,而不是 RoCE 的增量改进。

支持硅片时间:2025 年底至 2026 年初首批商用[8]。详见 1.11 Ultra Ethernet (UEC)

CXL 在三层框架中的角色是什么?

memory-semantic 层唯一规模化部署的开放方案,不直接做 GPU-GPU 通信

子协议 (@tbl-hw-stdcmp-cxl-sub):

子协议用途一致性方向
CXL.io设备发现、配置,等价 PCIe TLP无 (PCIe 兼容)
CXL.cache加速器对主机内存做 cache加速器 cache 主机 mem
CXL.mem主机直接访问加速器/池化设备的内存主机访问远端 mem

@tbl-hw-stdcmp-cxl-sub CXL 协议子层

版本演进 (@tbl-hw-stdcmp-cxl-ver):

版本物理层单 lanex16 双向关键能力时间
CXL 1.1PCIe 5.032 GT/s64 GB/sCPU-加速器一致性2019
CXL 2.0PCIe 5.032 GT/s64 GB/s单层 Switch,内存池化2020
CXL 3.0PCIe 6.064 GT/s~128 GB/s多层 Switch,P2P,256B FLIT,fabric attached memory2022-08
CXL 3.1PCIe 6.0/6.164 GT/s~128 GB/s多级 fabric,mesh/ring2023-11
CXL 4.0PCIe 7.0128 GT/s~256 GB/s带宽翻倍2025-11

@tbl-hw-stdcmp-cxl-ver CXL 版本演进

与 scale-up 的关系:不是替代而是垂直 vs 水平互补:

  • NVLink / UALink: GPU-GPU 水平带宽,走 load/store 但不要求严格一致性 (软件层管理)
  • CXL:解决 CPU-内存池、CPU-加速器内存映射、加速器访问主机 DRAM 的一致性问题

实际部署中,CXL 3.x 多机柜 fabric 仍在 PoC 阶段,真正规模化的还是 CPU-内存扩展卡 (Type 3 设备)[1]。详见 1.12 CXL

2025-2026 主线趋势是什么?

4 条同时推进的趋势

1. scale-up 域规模快速放大。NVLink 从 H100 的 NVL8/16 走到 B200 的 NVL72,同代的 UALink 直接规划到 1024 加速器。Pod 不再等于"一台服务器",而是"一个机柜或一组机柜"。这把以前必须走 IB 的"中等距离 GPU 通信"挤进 scale-up 域。

2. 开放标准开始追赶私有方案。UALink (对标 NVLink/NVSwitch) 和 UEC (对标 IB) 都把 1.0 落在 2025 年,量产硅片在 2025 年底-2026 年。生态成员高度重叠 (AMD / Intel / Broadcom / Meta / Microsoft 在两个联盟同时发力),形成非 NVIDIA 阵营的完整 scale-up + scale-out 替代栈。

3. scale-up 和 scale-out 边界被两边挤压。UALink 1024 加速器 Pod 已覆盖过去 IB 的"机柜组"层级。反过来 UEC 的 packet spraying + 链路层重传也在试图把跨机柜延迟压到接近 scale-up 量级。两者产品形态边界在 2026 年仍未定。

4. memory-semantic 和 scale-up 在物理层趋同。CXL 4.0 走 PCIe 7.0 (128 GT/s/lane),UALink 用 Ethernet PHY 200 GT/s/lane,NVLink 5.0 用 100 GT/s/lane PAM4,三者在 SerDes 层共享供应链 (Synopsys / Cadence / Broadcom)。未来差异化将主要在协议层。

开放问题

核心问题:互联标准演化中尚未解决的关键开放问题有哪些?

  • UALink 量产硅片真正落地时间,以及首批可用的 1024-加速器规模 Pod 形态 (待 2026-2027 验证)
  • UEC packet spraying 在万节点规模的尾延迟实测数据 (1.0 刚发布,公开 benchmark 极少)
  • CXL fabric 在 GPU 集群中的实际定位:是否会演化为"GPU 共享 KV cache 池"等 AI 推理场景的关键路径
  • 国产互联 (HCCS / ICI 类) 与 UALink 的对接可能性 (政策与技术双重不确定)

Takeaway

知识点核心结论
三层框架scale-up (load/store) / scale-out (RDMA) / memory-semantic (CXL)
scale-up 三家NVLink 私有 NVL72 / UALink 1.0 开放 1024 加速器 / xGMI 8 GPU
scale-out 三家IB 封闭低延迟 / RoCEv2 开放需 PFC 调优 / UEC 开放对标 IB
memory-semanticCXL 4.0 (PCIe 7.0),主要做 CPU-内存扩展,不替代 scale-up
边界趋势scale-up 域规模放大 + UEC 把延迟挤进 scale-up 范围
物理层趋同CXL/UALink/NVLink 在 SerDes 层共享供应链,差异在协议

参考资料

  1. RCRTech, Interconnects: NVLink, UALink, and CXL. https://rcrtech.com/semiconductor-news/interconnects-nvlink-ualink-and-cxl/
  2. BusinessWire, UALink Consortium Releases Four Additional Specifications, 2026-04. https://www.businesswire.com/news/home/20260407620696/en/
  3. AMD ROCm Blog, Understanding RCCL Bandwidth and xGMI Performance on MI300X. https://rocm.blogs.amd.com/software-tools-optimization/mi300x-rccl-xgmi/README.html
  4. Lenovo, ThinkSystem AMD MI300X 192GB 750W 8-GPU Board Product Guide. https://lenovopress.lenovo.com/lp1943-thinksystem-amd-mi300x-192gb-750w-8-gpu-board
  5. Rivos, Ultra Ethernet Specification 1.0: A Game Changer for AI Networking. https://www.rivosinc.com/resources/blog/ultra-ethernet-specification-1-0-a-game-changer-for-ai-networking
  6. Tom's Hardware, Ultra Ethernet: The Data Center Interconnection of Tomorrow, Detailed. https://www.tomshardware.com/networking/ultra-ethernet-the-data-center-interconnection-of-tomorrow-detailed
  7. Synopsys, Ultra Ethernet and UALink: Scalable AI Networks. https://www.synopsys.com/articles/ultra-ethernet-ualink-ai-networks.html
  8. VIAVI Solutions, Inside UE 1.0: What Ultra Ethernet Means for AI and HPC Networks. https://blog.viavisolutions.com/2025/08/13/inside-ue-1-0-what-ultra-ethernet-means-for-ai-and-hpc-networks/