AI 互联标准对比
scale-up、scale-out、memory-semantic 三层互联标准的横向规格对比
核心要点:
- 按通信跨度分三层:scale-up (Pod 内 load/store) / scale-out (跨 Pod RDMA) / memory-semantic (CXL)
- scale-up: NVLink (NVL72 72 GPU 私有) vs UALink 1.0 (1024 加速器开放) vs AMD xGMI (8 GPU)
- scale-out: IB XDR (800 Gbps 封闭) vs RoCEv2 (开放需 PFC 调优) vs UEC 1.0 (开放对标 IB)
- memory-semantic: CXL 4.0 (PCIe 7.0),仍主要做 CPU-内存扩展,未规模替代 scale-up
- 趋势:scale-up 域规模放大 + 开放标准追赶私有 + scale-up/out 边界互相挤压
本文把当前 AI 集群主流互联标准放同一张表横比。各标准协议细节、代际演进、性能模型见专题文档 (NVLink/NVSwitch/IB/RoCE/PCIe/UALink/UEC/CXL)。
本文新引入名词 (其他名词见 1.1 总览 Glossary):
- scale-up: Pod 内通过专用低延迟互联把多加速器组合成"逻辑大芯片",支持 load/store,域规模 8-1024 加速器
- scale-out:跨 Pod / 机柜把多个 scale-up 域连成大集群,走 RDMA 消息语义,域规模数万-百万 endpoint
- memory-semantic: CPU / 加速器与内存池之间走 cache-coherent 协议
- Fabric:多端口可路由互联网络
- In-Network Compute:网内计算 (NVLS / SHARP)
三层分类框架是什么?
按协议语义分层,不按物理介质 (都可以是铜缆/光纤):
┌─────────────────────────────────────────────────────────────┐
│ Memory-Semantic : CXL (CPU <-> 内存池/加速器, 缓存一致) │
├─────────────────────────────────────────────────────────────┤
│ scale-up : NVLink / NVSwitch / UALink / xGMI │
│ (Pod 内 8-1024 加速器, load/store) │
├─────────────────────────────────────────────────────────────┤
│ scale-out : InfiniBand / RoCEv2 / Ultra Ethernet │
│ (跨 Pod, 数万-百万 endpoint, RDMA) │
└─────────────────────────────────────────────────────────────┘
判断准则:
- load/store + Pod 域内全互联 → scale-up
- send/recv + 跨 Pod 路由 → scale-out
- cache 协议 + 一致性域 → memory-semantic
scale-up 域规模典型 8-1024 加速器:xGMI 8-GPU 是下限,NVL72 / UALink 1024 是上限。NVLink 5.0 通过 NVL72 已经把 scale-up 域扩到机柜级,UALink 1.0 明确支持 Pod 级 (最多 1024)。"机柜内 vs 机柜外"边界正在被 scale-up 标准向外推、scale-out 标准向内推 (UEC 直接对标 IB)。
主流标准的横向对比矩阵
核心问题:一张表里各互联标准在层级、速率、域规模、协议、主导方的关键参数如何排布?
完整对比见 @tbl-hw-stdcmp-matrix。
| 标准 | 层级 | 定位 | 单链路速率 | 单加速器聚合带宽 | 域规模 | 协议层 | 主导方 | 1.0/当前版本时间 |
|---|---|---|---|---|---|---|---|---|
| NVLink 4.0 | scale-up | NVIDIA GPU 间直连 (H100) | 100 Gbps/lane PAM4, 25 GB/s/方向/link | 900 GB/s 双向 (18 link) | 8 GPU (HGX H100) / 256 GPU (NVL256) | 私有 flit | NVIDIA | 2022 (Hopper) |
| NVLink 5.0 | scale-up | NVIDIA GPU 间直连 (B200) | 200 Gbps/lane PAM4, 50 GB/s/方向/link | 1800 GB/s 双向 (18 link) | 72 GPU (NVL72) | 私有 flit | NVIDIA | 2024 (Blackwell) |
| NVSwitch 4.0 | scale-up | NVLink 域全交叉交换 | NVLink 5.0 物理层 | 7.2 TB/s 总交换 | 72 端口 | NVLink + NVLS | NVIDIA | 2024 |
| UALink 200G 1.0 | scale-up | 开放,对标 NVLink | 200 GT/s/lane (Ethernet PHY), 4 lane/Station = 800 Gbps/方向 | 取决于 station 数 | 1024 加速器 | 开放,load/store | UALink Consortium | 2025-04 |
| xGMI (Infinity Fabric) | scale-up | AMD GPU 间直连 | ~32-64 GB/s/link | 896 GB/s 双向 (MI300X 8 卡) | 8 GPU (MI300X) | AMD 私有 | AMD | MI300X 2023-12 |
| InfiniBand XDR | scale-out | HPC/AI 训练集群标准 | 800 Gbps/端口 | ~100 GB/s 单向 | 万级节点 | IB 协议栈,原生 RDMA | NVIDIA/IBTA | 2025 (ConnectX-8) |
| InfiniBand NDR | scale-out | 上一代主力 | 400 Gbps/端口 | ~50 GB/s 单向 | 万级节点 | IB 协议栈 | NVIDIA/IBTA | 2022 |
| RoCEv2 | scale-out | 以太网 + RDMA,成本敏感 | 200/400/800 GbE | ~25-100 GB/s 单向 | 万级节点 | UDP/IP + IB BTH | IBTA + 以太网厂商 | 2014 |
| UEC 1.0 | scale-out | 开放 Ethernet,对标 IB | 800 Gbps 起步,路线至 1.6 Tbps | 端口聚合 | 百万 endpoint | UET,原生 RDMA | UEC (50+ 厂商) | 2025-06 |
| CXL 3.1 | memory-semantic | CPU/加速器内存池化与一致性 | 64 GT/s/lane (PCIe 6.0),x16 = ~128 GB/s 双向 | x16 链路 | 多级 Switch fabric | io + cache + mem | CXL Consortium | 2023-11 |
| CXL 4.0 | memory-semantic | PCIe 7.0 带宽翻倍 | 128 GT/s/lane (PCIe 7.0) | 双倍 CXL 3.x | 同上 | 同上 | CXL Consortium | 2025-11 |
@tbl-hw-stdcmp-matrix 主流互联标准横向对比
scale-up 三家方案怎么分化?
亚微秒级延迟 + load/store 内存语义 + Pod 内全互联是共同要求,分化在协议私有度、域规模、开放性。
NVLink + NVSwitch (NVIDIA 私有)
NVLink 5.0 单 GPU 18 链路 × 100 GB/s/方向 = 1800 GB/s 双向;配 NVSwitch 4.0 (72 端口、7.2 TB/s 总交换) 可在 NVL72 机柜内做 72 GPU 单跳全互联。NVSwitch 内嵌 NVLS 归约引擎,AllReduce 可在交换芯片上完成,突破 Ring 的 $(N-1)/N$ 上限。详见 1.2 NVLink 和 1.3 NVSwitch + NVLS。
特点:
- 协议完全私有,NVIDIA 全栈控制
- 当前唯一规模化部署的 scale-up 方案,客户拿到的就是 NVL72 整机
- 同时是其他厂商的对标基准
UALink 200G 1.0 (开放联盟)
UALink Consortium 由 AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft 于 2024-05 发起,2024-10 注册法人,2025-01 加入 Alibaba / Apple / Synopsys,2025-04 发布 1.0。
核心参数:
- 单 lane 200 GT/s,信令率 212.5 GT/s (含 Ethernet L1 FEC 开销)
- 4 lane 一组 Station = 800 Gbps/方向
- 加速器可挂多 station,聚合带宽随之扩展
- UALink Switch 最多 1024 加速器一个 Pod,全 Pod 内 load/store
- 设计目标:以太网级原始速度 + PCIe 交换机级延迟,93% 有效峰值带宽
与 NVLink 关键区别:
- PHY 复用 Ethernet SerDes (200G/lane) 而非完全私有信令
- 多厂商可实现,AMD / Intel / Broadcom 都在做 silicon,量产硅片目标 2026 年底至 2027 年[1]
- Pod 规模上限 1024 加速器,大于 NVL72 的 72 GPU
2026-04 UALink 发布 4 份补充规范,覆盖 in-network compute、chiplet、可管理性、200G 性能优化[2]。详见 1.10 UALink 1.0。
xGMI (AMD Infinity Fabric)
xGMI 把 Infinity Fabric 延伸到 GPU 间的外部链路。MI300X 8-GPU 平台是 8 卡全互联 mesh,每 GPU 7 条 xGMI 链路,每条原始 64 GB/s 但实际可用约 48 GB/s。每对 GPU 双向带宽 128 GB/s;每 GPU 7 条 link 聚合 896 GB/s 双向[3][4]。
xGMI 域规模目前仍 8 GPU 一组,无类似 NVSwitch 的专用交换芯片,跨 8 卡靠 RoCE/UALink 出域。详见 1.7 AMD xGMI / Infinity Fabric。
scale-out 三家方案怎么分化?
跨机柜可路由 + 原生 RDMA + 万节点+ 是共同要求,分化在是否复用以太网、是否开放。
InfiniBand (NVIDIA 主导)
NDR (400 Gbps) 和 XDR (800 Gbps) 是当前主力。核心优势:
- 硬件信用流控,链路层天然无损 (不依赖 PFC)
- Subnet Manager 全局路由控制
- SHARP 网内计算,AllReduce 走 Tree 算法
代价:全栈 NVIDIA/Mellanox 主导,HCA + 交换机价格高。详见 1.4 InfiniBand。
RoCEv2 (以太网 + RDMA)
把 IB 的 BTH 传输层封装在 UDP/IP,复用以太网交换机。代价是需 PFC + ECN + DCQCN 三件配合才能逼近无损以太网,配置复杂、有 PFC 死锁风险。规模适中场景 (<1000 GPU) 成本优势明显,大规模需精细化运维。
国内云厂商 (阿里 / 华为 / 字节 / 腾讯) 大规模部署 RoCEv2 替代 IB,详见 1.5 RoCE (RDMA over Converged Ethernet)。
Ultra Ethernet 1.0
UEC 2023 年由 AMD / Intel / Broadcom / Cisco / Arista / Meta / Microsoft 发起,2025-06 发布 1.0,50+ 成员。目标:在标准以太网物理层上做新传输层 (UET),拿到 IB 级特性又保持以太网开放生态。
- 原生 RDMA 集成到链路层,不再像 RoCE 那样靠 BTH-over-UDP 转封装
- Packet Spraying:端点用 Entropy Value (EV) 字段对每包独立选 ECMP 路径,端到端做 reorder。彻底突破"5 元组哈希一条流绑死一条路径"的限制
- Selective Retransmission:收端按包级 ACK,只重传丢失包
- LLR (Link-Level Retransmission):链路层 hop-by-hop 重传,把恢复时间压到链路时延量级
- 端口起步 800 Gbps,路线图至 1.6 Tbps,规模目标百万 endpoint
Synopsys[7] 明确把 UEC 定位为"InfiniBand-class features on open Ethernet",即开放生态版的 IB,而不是 RoCE 的增量改进。
支持硅片时间:2025 年底至 2026 年初首批商用[8]。详见 1.11 Ultra Ethernet (UEC)。
CXL 在三层框架中的角色是什么?
memory-semantic 层唯一规模化部署的开放方案,不直接做 GPU-GPU 通信。
子协议 (@tbl-hw-stdcmp-cxl-sub):
| 子协议 | 用途 | 一致性方向 |
|---|---|---|
| CXL.io | 设备发现、配置,等价 PCIe TLP | 无 (PCIe 兼容) |
| CXL.cache | 加速器对主机内存做 cache | 加速器 cache 主机 mem |
| CXL.mem | 主机直接访问加速器/池化设备的内存 | 主机访问远端 mem |
@tbl-hw-stdcmp-cxl-sub CXL 协议子层
版本演进 (@tbl-hw-stdcmp-cxl-ver):
| 版本 | 物理层 | 单 lane | x16 双向 | 关键能力 | 时间 |
|---|---|---|---|---|---|
| CXL 1.1 | PCIe 5.0 | 32 GT/s | 64 GB/s | CPU-加速器一致性 | 2019 |
| CXL 2.0 | PCIe 5.0 | 32 GT/s | 64 GB/s | 单层 Switch,内存池化 | 2020 |
| CXL 3.0 | PCIe 6.0 | 64 GT/s | ~128 GB/s | 多层 Switch,P2P,256B FLIT,fabric attached memory | 2022-08 |
| CXL 3.1 | PCIe 6.0/6.1 | 64 GT/s | ~128 GB/s | 多级 fabric,mesh/ring | 2023-11 |
| CXL 4.0 | PCIe 7.0 | 128 GT/s | ~256 GB/s | 带宽翻倍 | 2025-11 |
@tbl-hw-stdcmp-cxl-ver CXL 版本演进
与 scale-up 的关系:不是替代而是垂直 vs 水平互补:
- NVLink / UALink: GPU-GPU 水平带宽,走 load/store 但不要求严格一致性 (软件层管理)
- CXL:解决 CPU-内存池、CPU-加速器内存映射、加速器访问主机 DRAM 的一致性问题
实际部署中,CXL 3.x 多机柜 fabric 仍在 PoC 阶段,真正规模化的还是 CPU-内存扩展卡 (Type 3 设备)[1]。详见 1.12 CXL。
2025-2026 主线趋势是什么?
4 条同时推进的趋势:
1. scale-up 域规模快速放大。NVLink 从 H100 的 NVL8/16 走到 B200 的 NVL72,同代的 UALink 直接规划到 1024 加速器。Pod 不再等于"一台服务器",而是"一个机柜或一组机柜"。这把以前必须走 IB 的"中等距离 GPU 通信"挤进 scale-up 域。
2. 开放标准开始追赶私有方案。UALink (对标 NVLink/NVSwitch) 和 UEC (对标 IB) 都把 1.0 落在 2025 年,量产硅片在 2025 年底-2026 年。生态成员高度重叠 (AMD / Intel / Broadcom / Meta / Microsoft 在两个联盟同时发力),形成非 NVIDIA 阵营的完整 scale-up + scale-out 替代栈。
3. scale-up 和 scale-out 边界被两边挤压。UALink 1024 加速器 Pod 已覆盖过去 IB 的"机柜组"层级。反过来 UEC 的 packet spraying + 链路层重传也在试图把跨机柜延迟压到接近 scale-up 量级。两者产品形态边界在 2026 年仍未定。
4. memory-semantic 和 scale-up 在物理层趋同。CXL 4.0 走 PCIe 7.0 (128 GT/s/lane),UALink 用 Ethernet PHY 200 GT/s/lane,NVLink 5.0 用 100 GT/s/lane PAM4,三者在 SerDes 层共享供应链 (Synopsys / Cadence / Broadcom)。未来差异化将主要在协议层。
开放问题
核心问题:互联标准演化中尚未解决的关键开放问题有哪些?
- UALink 量产硅片真正落地时间,以及首批可用的 1024-加速器规模 Pod 形态 (待 2026-2027 验证)
- UEC packet spraying 在万节点规模的尾延迟实测数据 (1.0 刚发布,公开 benchmark 极少)
- CXL fabric 在 GPU 集群中的实际定位:是否会演化为"GPU 共享 KV cache 池"等 AI 推理场景的关键路径
- 国产互联 (HCCS / ICI 类) 与 UALink 的对接可能性 (政策与技术双重不确定)
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 三层框架 | scale-up (load/store) / scale-out (RDMA) / memory-semantic (CXL) |
| scale-up 三家 | NVLink 私有 NVL72 / UALink 1.0 开放 1024 加速器 / xGMI 8 GPU |
| scale-out 三家 | IB 封闭低延迟 / RoCEv2 开放需 PFC 调优 / UEC 开放对标 IB |
| memory-semantic | CXL 4.0 (PCIe 7.0),主要做 CPU-内存扩展,不替代 scale-up |
| 边界趋势 | scale-up 域规模放大 + UEC 把延迟挤进 scale-up 范围 |
| 物理层趋同 | CXL/UALink/NVLink 在 SerDes 层共享供应链,差异在协议 |
参考资料
- RCRTech, Interconnects: NVLink, UALink, and CXL. https://rcrtech.com/semiconductor-news/interconnects-nvlink-ualink-and-cxl/
- BusinessWire, UALink Consortium Releases Four Additional Specifications, 2026-04. https://www.businesswire.com/news/home/20260407620696/en/
- AMD ROCm Blog, Understanding RCCL Bandwidth and xGMI Performance on MI300X. https://rocm.blogs.amd.com/software-tools-optimization/mi300x-rccl-xgmi/README.html
- Lenovo, ThinkSystem AMD MI300X 192GB 750W 8-GPU Board Product Guide. https://lenovopress.lenovo.com/lp1943-thinksystem-amd-mi300x-192gb-750w-8-gpu-board
- Rivos, Ultra Ethernet Specification 1.0: A Game Changer for AI Networking. https://www.rivosinc.com/resources/blog/ultra-ethernet-specification-1-0-a-game-changer-for-ai-networking
- Tom's Hardware, Ultra Ethernet: The Data Center Interconnection of Tomorrow, Detailed. https://www.tomshardware.com/networking/ultra-ethernet-the-data-center-interconnection-of-tomorrow-detailed
- Synopsys, Ultra Ethernet and UALink: Scalable AI Networks. https://www.synopsys.com/articles/ultra-ethernet-ualink-ai-networks.html
- VIAVI Solutions, Inside UE 1.0: What Ultra Ethernet Means for AI and HPC Networks. https://blog.viavisolutions.com/2025/08/13/inside-ue-1-0-what-ultra-ethernet-means-for-ai-and-hpc-networks/