AI 互联标准对比

scale-up、scale-out、memory-semantic 三层互联标准的横向规格对比

核心要点：

按通信跨度分三层：scale-up （Pod 内 load/store） / scale-out （跨 Pod RDMA） / memory-semantic (CXL)

scale-up: NVLink （NVL72 72 GPU 私有） vs UALink 1.0 （1024 加速器开放） vs AMD xGMI (8 GPU)

scale-out: IB XDR （800 Gbps 封闭） vs RoCEv2 （开放需 PFC 调优） vs UEC 1.0 （开放对标 IB）

memory-semantic: CXL 4.0 (PCIe 7.0)，仍主要做 CPU-内存扩展，未规模替代 scale-up

趋势：scale-up 域规模放大 + 开放标准追赶私有 + scale-up/out 边界互相挤压

本文把当前 AI 集群主流互联标准放同一张表横比。各标准协议细节、代际演进、性能模型见专题文档 (NVLink/NVSwitch/IB/RoCE/PCIe/UALink/UEC/CXL)。

本文新引入名词 (其他名词见 1.1 总览 Glossary):

scale-up: Pod 内通过专用低延迟互联把多加速器组合成"逻辑大芯片"，支持 load/store，域规模 8-1024 加速器
scale-out：跨 Pod / 机柜把多个 scale-up 域连成大集群，走 RDMA 消息语义，域规模数万-百万 endpoint
memory-semantic: CPU / 加速器与内存池之间走 cache-coherent 协议
Fabric：多端口可路由互联网络
In-Network Compute：网内计算 (NVLS / SHARP)

三层分类框架是什么？

按协议语义分层，不按物理介质（都可以是铜缆/光纤）：

┌─────────────────────────────────────────────────────────────┐
│  Memory-Semantic  : CXL (CPU <-> 内存池/加速器, 缓存一致)    │
├─────────────────────────────────────────────────────────────┤
│  scale-up         : NVLink / NVSwitch / UALink / xGMI       │
│                     (Pod 内 8-1024 加速器, load/store)       │
├─────────────────────────────────────────────────────────────┤
│  scale-out        : InfiniBand / RoCEv2 / Ultra Ethernet    │
│                     (跨 Pod, 数万-百万 endpoint, RDMA)       │
└─────────────────────────────────────────────────────────────┘

判断准则：

load/store + Pod 域内全互联 → scale-up
send/recv + 跨 Pod 路由 → scale-out
cache 协议 + 一致性域 → memory-semantic

scale-up 域规模典型 8-1024 加速器：xGMI 8-GPU 是下限，NVL72 / UALink 1024 是上限。NVLink 5.0 通过 NVL72 已经把 scale-up 域扩到机柜级，UALink 1.0 明确支持 Pod 级（最多 1024）。"机柜内 vs 机柜外"边界正在被 scale-up 标准向外推、scale-out 标准向内推（UEC 直接对标 IB）。

主流标准的横向对比矩阵

核心问题：一张表里各互联标准在层级、速率、域规模、协议、主导方的关键参数如何排布？

完整对比见 @tbl-hw-stdcmp-matrix。

标准	层级	定位	单链路速率	单加速器聚合带宽	域规模	协议层	主导方	1.0/当前版本时间
NVLink 4.0	scale-up	NVIDIA GPU 间直连 (H100)	100 Gbps/lane PAM4, 25 GB/s/方向/link	900 GB/s 双向 (18 link)	8 GPU (HGX H100) / 256 GPU (NVL256)	私有 flit	NVIDIA	2022 (Hopper)
NVLink 5.0	scale-up	NVIDIA GPU 间直连 (B200)	200 Gbps/lane PAM4, 50 GB/s/方向/link	1800 GB/s 双向 (18 link)	72 GPU (NVL72)	私有 flit	NVIDIA	2024 (Blackwell)
NVSwitch 4.0	scale-up	NVLink 域全交叉交换	NVLink 5.0 物理层	7.2 TB/s 总交换	72 端口	NVLink + NVLS	NVIDIA	2024
UALink 200G 1.0	scale-up	开放，对标 NVLink	200 GT/s/lane (Ethernet PHY), 4 lane/Station = 800 Gbps/方向	取决于 station 数	1024 加速器	开放，load/store	UALink Consortium	2025-04
xGMI (Infinity Fabric)	scale-up	AMD GPU 间直连	~32-64 GB/s/link	896 GB/s 双向（MI300X 8 卡）	8 GPU (MI300X)	AMD 私有	AMD	MI300X 2023-12
InfiniBand XDR	scale-out	HPC/AI 训练集群标准	800 Gbps/端口	~100 GB/s 单向	万级节点	IB 协议栈，原生 RDMA	NVIDIA/IBTA	2025 (ConnectX-8)
InfiniBand NDR	scale-out	上一代主力	400 Gbps/端口	~50 GB/s 单向	万级节点	IB 协议栈	NVIDIA/IBTA	2022
RoCEv2	scale-out	以太网 + RDMA，成本敏感	200/400/800 GbE	~25-100 GB/s 单向	万级节点	UDP/IP + IB BTH	IBTA + 以太网厂商	2014
UEC 1.0	scale-out	开放 Ethernet，对标 IB	800 Gbps 起步，路线至 1.6 Tbps	端口聚合	百万 endpoint	UET，原生 RDMA	UEC （50+ 厂商）	2025-06
CXL 3.1	memory-semantic	CPU/加速器内存池化与一致性	64 GT/s/lane (PCIe 6.0)，x16 = ~128 GB/s 双向	x16 链路	多级 Switch fabric	io + cache + mem	CXL Consortium	2023-11
CXL 4.0	memory-semantic	PCIe 7.0 带宽翻倍	128 GT/s/lane (PCIe 7.0)	双倍 CXL 3.x	同上	同上	CXL Consortium	2025-11

@tbl-hw-stdcmp-matrix 主流互联标准横向对比

scale-up 三家方案怎么分化？

亚微秒级延迟 + load/store 内存语义 + Pod 内全互联是共同要求，分化在协议私有度、域规模、开放性。

NVLink + NVSwitch （NVIDIA 私有）

NVLink 5.0 单 GPU 18 链路 × 100 GB/s/方向 = 1800 GB/s 双向；配 NVSwitch 4.0 （72 端口、7.2 TB/s 总交换）可在 NVL72 机柜内做 72 GPU 单跳全互联。NVSwitch 内嵌 NVLS 归约引擎，AllReduce 可在交换芯片上完成，突破 Ring 的 $(N-1)/N$ 上限。详见 1.2 NVLink 和 1.3 NVSwitch + NVLS。

特点：

协议完全私有，NVIDIA 全栈控制
当前唯一规模化部署的 scale-up 方案，客户拿到的就是 NVL72 整机
同时是其他厂商的对标基准

UALink 200G 1.0 （开放联盟）

UALink Consortium 由 AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft 于 2024-05 发起，2024-10 注册法人，2025-01 加入 Alibaba / Apple / Synopsys，2025-04 发布 1.0。

核心参数：

单 lane 200 GT/s，信令率 212.5 GT/s （含 Ethernet L1 FEC 开销）
4 lane 一组 Station = 800 Gbps/方向
加速器可挂多 station，聚合带宽随之扩展
UALink Switch 最多 1024 加速器一个 Pod，全 Pod 内 load/store
设计目标：以太网级原始速度 + PCIe 交换机级延迟，93% 有效峰值带宽

与 NVLink 关键区别：

PHY 复用 Ethernet SerDes (200G/lane) 而非完全私有信令
多厂商可实现，AMD / Intel / Broadcom 都在做 silicon，量产硅片目标 2026 年底至 2027 年[1]
Pod 规模上限 1024 加速器，大于 NVL72 的 72 GPU

2026-04 UALink 发布 4 份补充规范，覆盖 in-network compute、chiplet、可管理性、200G 性能优化[2]。详见 1.10 UALink 1.0。

xGMI (AMD Infinity Fabric)

xGMI 把 Infinity Fabric 延伸到 GPU 间的外部链路。MI300X 8-GPU 平台是 8 卡全互联 mesh，每 GPU 7 条 xGMI 链路，每条原始 64 GB/s 但实际可用约 48 GB/s。每对 GPU 双向带宽 128 GB/s；每 GPU 7 条 link 聚合 896 GB/s 双向[3][4]。

xGMI 域规模目前仍 8 GPU 一组，无类似 NVSwitch 的专用交换芯片，跨 8 卡靠 RoCE/UALink 出域。详见 1.7 AMD xGMI / Infinity Fabric。

scale-out 三家方案怎么分化？

跨机柜可路由 + 原生 RDMA + 万节点+ 是共同要求，分化在是否复用以太网、是否开放。

InfiniBand （NVIDIA 主导）

NDR (400 Gbps) 和 XDR (800 Gbps) 是当前主力。核心优势：

硬件信用流控，链路层天然无损（不依赖 PFC）
Subnet Manager 全局路由控制
SHARP 网内计算，AllReduce 走 Tree 算法

代价：全栈 NVIDIA/Mellanox 主导，HCA + 交换机价格高。详见 1.4 InfiniBand。

RoCEv2 （以太网 + RDMA）

把 IB 的 BTH 传输层封装在 UDP/IP，复用以太网交换机。代价是需 PFC + ECN + DCQCN 三件配合才能逼近无损以太网，配置复杂、有 PFC 死锁风险。规模适中场景 (<1000 GPU) 成本优势明显，大规模需精细化运维。

国内云厂商（阿里 / 华为 / 字节 / 腾讯）大规模部署 RoCEv2 替代 IB，详见 1.5 RoCE (RDMA over Converged Ethernet)。

Ultra Ethernet 1.0

UEC 2023 年由 AMD / Intel / Broadcom / Cisco / Arista / Meta / Microsoft 发起，2025-06 发布 1.0，50+ 成员。目标：在标准以太网物理层上做新传输层 (UET)，拿到 IB 级特性又保持以太网开放生态。

关键特性[5][6]:

原生 RDMA 集成到链路层，不再像 RoCE 那样靠 BTH-over-UDP 转封装
Packet Spraying：端点用 Entropy Value (EV) 字段对每包独立选 ECMP 路径，端到端做 reorder。彻底突破"5 元组哈希一条流绑死一条路径"的限制
Selective Retransmission：收端按包级 ACK，只重传丢失包
LLR (Link-Level Retransmission)：链路层 hop-by-hop 重传，把恢复时间压到链路时延量级
端口起步 800 Gbps，路线图至 1.6 Tbps，规模目标百万 endpoint

Synopsys[7] 明确把 UEC 定位为"InfiniBand-class features on open Ethernet"，即开放生态版的 IB，而不是 RoCE 的增量改进。

支持硅片时间：2025 年底至 2026 年初首批商用[8]。详见 1.11 Ultra Ethernet (UEC)。

CXL 在三层框架中的角色是什么？

memory-semantic 层唯一规模化部署的开放方案，不直接做 GPU-GPU 通信。

子协议 (@tbl-hw-stdcmp-cxl-sub):

子协议	用途	一致性方向
CXL.io	设备发现、配置，等价 PCIe TLP	无（PCIe 兼容）
CXL.cache	加速器对主机内存做 cache	加速器 cache 主机 mem
CXL.mem	主机直接访问加速器/池化设备的内存	主机访问远端 mem

@tbl-hw-stdcmp-cxl-sub CXL 协议子层

版本演进 (@tbl-hw-stdcmp-cxl-ver):

版本	物理层	单 lane	x16 双向	关键能力	时间
CXL 1.1	PCIe 5.0	32 GT/s	64 GB/s	CPU-加速器一致性	2019
CXL 2.0	PCIe 5.0	32 GT/s	64 GB/s	单层 Switch，内存池化	2020
CXL 3.0	PCIe 6.0	64 GT/s	~128 GB/s	多层 Switch，P2P，256B FLIT，fabric attached memory	2022-08
CXL 3.1	PCIe 6.0/6.1	64 GT/s	~128 GB/s	多级 fabric，mesh/ring	2023-11
CXL 4.0	PCIe 7.0	128 GT/s	~256 GB/s	带宽翻倍	2025-11

@tbl-hw-stdcmp-cxl-ver CXL 版本演进

与 scale-up 的关系：不是替代而是垂直 vs 水平互补：

NVLink / UALink: GPU-GPU 水平带宽，走 load/store 但不要求严格一致性（软件层管理）
CXL：解决 CPU-内存池、CPU-加速器内存映射、加速器访问主机 DRAM 的一致性问题

实际部署中，CXL 3.x 多机柜 fabric 仍在 PoC 阶段，真正规模化的还是 CPU-内存扩展卡（Type 3 设备）[1]。详见 1.12 CXL。

2025-2026 主线趋势是什么？

4 条同时推进的趋势：

1. scale-up 域规模快速放大。NVLink 从 H100 的 NVL8/16 走到 B200 的 NVL72，同代的 UALink 直接规划到 1024 加速器。Pod 不再等于"一台服务器"，而是"一个机柜或一组机柜"。这把以前必须走 IB 的"中等距离 GPU 通信"挤进 scale-up 域。

2. 开放标准开始追赶私有方案。UALink （对标 NVLink/NVSwitch）和 UEC （对标 IB）都把 1.0 落在 2025 年，量产硅片在 2025 年底-2026 年。生态成员高度重叠（AMD / Intel / Broadcom / Meta / Microsoft 在两个联盟同时发力），形成非 NVIDIA 阵营的完整 scale-up + scale-out 替代栈。

3. scale-up 和 scale-out 边界被两边挤压。UALink 1024 加速器 Pod 已覆盖过去 IB 的"机柜组"层级。反过来 UEC 的 packet spraying + 链路层重传也在试图把跨机柜延迟压到接近 scale-up 量级。两者产品形态边界在 2026 年仍未定。

4. memory-semantic 和 scale-up 在物理层趋同。CXL 4.0 走 PCIe 7.0 (128 GT/s/lane)，UALink 用 Ethernet PHY 200 GT/s/lane，NVLink 5.0 用 100 GT/s/lane PAM4，三者在 SerDes 层共享供应链 (Synopsys / Cadence / Broadcom)。未来差异化将主要在协议层。

开放问题

核心问题：互联标准演化中尚未解决的关键开放问题有哪些？

UALink 量产硅片真正落地时间，以及首批可用的 1024-加速器规模 Pod 形态（待 2026-2027 验证）
UEC packet spraying 在万节点规模的尾延迟实测数据（1.0 刚发布，公开 benchmark 极少）
CXL fabric 在 GPU 集群中的实际定位：是否会演化为"GPU 共享 KV cache 池"等 AI 推理场景的关键路径
国产互联（HCCS / ICI 类）与 UALink 的对接可能性（政策与技术双重不确定）

Takeaway

知识点	核心结论
三层框架	scale-up (load/store) / scale-out (RDMA) / memory-semantic (CXL)
scale-up 三家	NVLink 私有 NVL72 / UALink 1.0 开放 1024 加速器 / xGMI 8 GPU
scale-out 三家	IB 封闭低延迟 / RoCEv2 开放需 PFC 调优 / UEC 开放对标 IB
memory-semantic	CXL 4.0 (PCIe 7.0)，主要做 CPU-内存扩展，不替代 scale-up
边界趋势	scale-up 域规模放大 + UEC 把延迟挤进 scale-up 范围
物理层趋同	CXL/UALink/NVLink 在 SerDes 层共享供应链，差异在协议

参考资料

RCRTech, Interconnects: NVLink, UALink, and CXL. https://rcrtech.com/semiconductor-news/interconnects-nvlink-ualink-and-cxl/
BusinessWire, UALink Consortium Releases Four Additional Specifications, 2026-04. https://www.businesswire.com/news/home/20260407620696/en/
AMD ROCm Blog, Understanding RCCL Bandwidth and xGMI Performance on MI300X. https://rocm.blogs.amd.com/software-tools-optimization/mi300x-rccl-xgmi/README.html
Lenovo, ThinkSystem AMD MI300X 192GB 750W 8-GPU Board Product Guide. https://lenovopress.lenovo.com/lp1943-thinksystem-amd-mi300x-192gb-750w-8-gpu-board
Rivos, Ultra Ethernet Specification 1.0: A Game Changer for AI Networking. https://www.rivosinc.com/resources/blog/ultra-ethernet-specification-1-0-a-game-changer-for-ai-networking
Tom's Hardware, Ultra Ethernet: The Data Center Interconnection of Tomorrow, Detailed. https://www.tomshardware.com/networking/ultra-ethernet-the-data-center-interconnection-of-tomorrow-detailed
Synopsys, Ultra Ethernet and UALink: Scalable AI Networks. https://www.synopsys.com/articles/ultra-ethernet-ualink-ai-networks.html
VIAVI Solutions, Inside UE 1.0: What Ultra Ethernet Means for AI and HPC Networks. https://blog.viavisolutions.com/2025/08/13/inside-ue-1-0-what-ultra-ethernet-means-for-ai-and-hpc-networks/

三层分类框架是什么？​

主流标准的横向对比矩阵​

scale-up 三家方案怎么分化？​

NVLink + NVSwitch （NVIDIA 私有）​

UALink 200G 1.0 （开放联盟）​

xGMI (AMD Infinity Fabric)​

scale-out 三家方案怎么分化？​

InfiniBand （NVIDIA 主导）​

RoCEv2 （以太网 + RDMA）​

Ultra Ethernet 1.0​

CXL 在三层框架中的角色是什么？​

2025-2026 主线趋势是什么？​

开放问题​

Takeaway​

参考资料​