跳到主要内容

UALink 1.0

开放 Scale-Up 互联标准的协议设计、现状与 NVLink 的对比

核心要点

  • 2024-05 由 AMD/Google/Meta 等 8 家发起,对标 NVLink 的开放标准
  • PHY 复用 802.3 Ethernet SerDes (212.5 GBd),非私有信令
  • 单 lane 200 GT/s,4-lane Station 提供 800 Gbps 单向
  • 单 Pod 最多 1024 加速器 (10-bit Routing ID)
  • 走 load/store 内存语义,整个 Pod 表现为"一颗超大 GPU"
  • 量产硅片落地窗口 2026-2027,比 NVL72 (2024 量产) 晚 2-3 年

UALink (Ultra Accelerator Link) 1.0 (200G) 规范于 2025-04 发布。本文写 UALink 本身:协议栈、关键参数、生态、时间线、局限。与 NVLink / IB / CXL 横向对比见 1.14 AI 互联标准对比

本文新引入名词 (其他名词见 1.1 总览 Glossary):

  • Pod:一组通过 UALink Switch 全互联的加速器集合,由 Pod Controller 管理;跨 Pod 不属 UALink 规范
  • Station: 4 个 UALink lane 一组,提供 800 Gbps 单向带宽
  • ULS (UALink Switch):单台最多 1024 端口
  • TL Flit / DL Flit:事务层 64B / 数据链路层 640B (含 32-bit CRC)
  • LLR (Link Level Replay):基于 640B DL Flit 的链路层重传
  • UALinkSec:端到端加密 + 认证,支持 Confidential Computing (TDX / SEV / CCA)
  • Virtual Pod:物理 Pod 内通过 Switch 端口分组划出的隔离子集

非 NVIDIA 阵营缺乏与 NVLink 对标的 scale-up 方案。Scale-up 互联在 2024 年前唯一规模化部署的是 NVIDIA NVLink + NVSwitch,协议私有,PHY / 交换芯片 / 软件栈全栈 NVIDIA 控制。其他 GPU 厂商 (AMD MI300X 用 xGMI 但仅 8 卡封闭、Intel Gaudi 走 RoCE) 没有对标方案。

UALink 1.0 白皮书把动机归纳为三点[1]:

  • 链路效率:双向 memory access 优化,最大化数据带宽
  • TCO 降低:复用已有 Ethernet 基础设施 (线缆、连接器、retimer、管理软件)
  • 软件简化:走 memory semantics (read/write/atomic),主机内存、本地加速器内存、远端加速器内存保持同一 ordering 模型

关键差异:scale-out 网络 (IB/RoCE/UEC) 走 send/recv 消息语义,软件要显式管理消息边界;UALink 走 load/store,跨加速器访问远端内存与本地内存编程模型一致,整个 Pod"看起来像一颗超大 GPU"。

联盟扩展和规范发布节奏?

2024-05 8 家发起 → 2025-04 1.0 规范发布 → 2026-Q4 计划 Common 3.0 (400G),时间线见 @tbl-hw-ualink-timeline

时间事件来源
2024-05UALink Promoter Group 成立 (AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft)[businesswire 2024-05][2]
2024-10UALink Consortium 注册法人,AWS + Astera Labs 加入扩到 10 家[businesswire 2024-10][3]
2025-01Alibaba / Apple / Synopsys 加入 Board,扩至 13 家[Kalyanasundharam][1]
2025-04UALink 200G 1.0 规范发布 (DL/PL 1.0)[businesswire 2025-04][4]
2025-06 (计划)200G 1.0 含 128G 选项的修订,Systems & Manageability 1.0[Goel 2025][5]
2025-08 (计划)Compliance & Interoperability 1.0[Goel 2025][5]
2025-09 (计划)Chiplet 1.0[Goel 2025][5]
2025-Q4 (计划)UALink Common 2.0 (200G + 128G 共版本)[Goel 2025][5]
2026-Q4 (计划)UALink Common 3.0 (含 400G DL/PL)[Goel 2025][5]

@tbl-hw-ualink-timeline UALink 时间线

到 1.0 发布时 (2025-04),联盟已发展到 13 家 Board / Promoter + 70+ 家 Contributor,覆盖加速器厂商 (AMD / Intel / Apple)、Hyperscaler (Google / Meta / Microsoft / Alibaba / AWS)、交换硅厂商 (Broadcom / Cisco / Astera Labs)、IP 供应商 (Synopsys),是非 NVIDIA 阵营的完整 scale-up 联盟。

物理层怎么定义?

基于 IEEE 802.3 Ethernet PHY (IEEE P802.3dj 草案),复用 Ethernet SerDes,参数见 @tbl-hw-ualink-phy

参数取值
单 lane 数据速率200 GT/s (主选) / 100 GT/s (低速选项)
单 lane 信令速率212.5 GBd(线上信令含 Ethernet L1 FEC 与编码开销)
物理层标准映射200GBASE-KR1/CR1、400GBASE-KR2/CR2、800GBASE-KR4/CR4 (200G); 100GBASE-KR1/CR1 等 (100G)
链路配置x1 / x2 / x4 lane 可选
Station 定义4 lane 一组 = 800 Gbps TX + 800 Gbps RX
最大铜缆长度< 4 米
编码64B/66B (IEEE 802.3 子集)
FEC标准 802.3 FEC,PCS/PMA 支持 reduced interleave 模式以降低 FEC 延迟

@tbl-hw-ualink-phy UALink 1.0 物理层参数

对 802.3 的修改:集中在 PCS (Physical Coding Sublayer) 和 PMA (Physical Medium Attachment),通过 1-way / 2-way codeword interleave 降低 FEC 延迟,并把 RS (544, 514) codeword 与 640-byte DL Flit 对齐 (单 DL Flit 恰好 = 一个 codeword),优化 latency 和 replay flit 数量。PMD / Auto-Negotiation / Link Training 不修改。

协议栈分几层?关键设计是什么?

四层 (Protocol / TL / DL / PHY),固定 Flit 大小是核心设计[1],见 @tbl-hw-ualink-stack

数据单元关键职责
Protocol LayerUPLI 消息 (Req / OrigData / RdRsp+Data / WrRsp)加速器内部 functional layer 接口,4 类 channel
Transaction Layer (TL)TL Flit (64 字节)UPLI 消息封装/解封、streaming address cache 地址压缩、Req/Rsp/Data 在 Flit 内复用
Data Link Layer (DL)DL Flit (640 字节,含 32-bit CRC)把 10 个 TL Flit 打包成 1 个 DL Flit、LLR、DL Message Service (UART-like F/W 通信)、TX Pacing / RX Rate Adaptation
Physical LayerRS Codeword (544, 514)802.3-derived PCS/PMA/PMD、FEC、SerDes 212.5G

@tbl-hw-ualink-stack UALink 协议栈

固定 Flit + codeword 对齐 是 UALink 区别于 PCIe / NVLink 的关键设计:

  • 64B TL Flit 内可同时承载多个 request / 完成 / data。1.0 白皮书 Figure 8 给出"5 write request + 5 write completion + 1 flow control"打包到 21 个 TL Flit,效率 20/21 = 95.2%
  • 640B DL Flit = 10 × 64B TL Flit,恰好填满一个 RS codeword,避免 replay 时跨 codeword 重发

Pod 规模和拓扑约束是什么?

单 Pod 最多 1024 加速器,跨 Pod 不属于 1.0 规范,参数见 @tbl-hw-ualink-pod

参数取值
单 Pod 最大加速器数1024
Accelerator Routing ID10-bit (= 1024 端点)
Pod Controller单 OS Domain (SND) 内统一管理
跨 Pod 通信不属于 1.0 规范 (留给上层 / scale-out 网络)
Virtual Pod支持 - 物理 Pod 内通过 Switch 端口分组划隔离子集
物理范围1-4 racks (端到端)
Req-to-Rsp RTT 目标< 1 μs

@tbl-hw-ualink-pod UALink Pod 规模与拓扑

拓扑组织:System Node 内可有 M 个 accelerator,每个加速器有 N 个对称端口流量均分。每加速器连到 ULS 一个端口,单 ULS 最多 1024 端口;超过单 switch 容量可走多级 switch 平面 (multi-plane switching) 扩展到 4096 端点 (1.0 未启用,路线图在后续版本)。

性能目标长什么样?

链路有效带宽 88-95%,Switch 单跳延迟 <300 ns,指标见 @tbl-hw-ualink-perf

指标1.0 目标值来源
链路有效带宽利用率88% (起步) → 95% (优化)[Goel 2025][5]
TL Flit 打包效率示例95.2% (20/21, 256B 最大 payload)UALink 1.0 Whitepaper Fig. 8
Switch 单跳延迟< 300 ns (full scale)[Goel 2025][5]
die-to-die / pin-to-pin 延迟(不含 switch hop)< 100 ns[Goel 2025][5]
端到端延迟(含 1 跳 ULS switch)~250 ns[Goel 2025][5]
Req-to-Rsp RTT< 1 μsUALink 1.0 Whitepaper
协议+PHY 功耗节省~40% (vs 通用 Ethernet stack)[Goel 2025][5]

@tbl-hw-ualink-perf UALink 1.0 性能与效率指标

延迟与功耗数字来自 Siemens EDA Goel 在 Future Memory & Storage 2025 大会的厂商演讲,属设计目标 / 仿真值,非量产硅片实测。1.0 规范刚发布,公开第三方实测尚未出现。

安全机制 (UALinkSec)

核心问题:UALinkSec 保护什么威胁模型、用什么机制?

端到端加密 + 认证,覆盖所有 UPLI channel[1]:

  • 覆盖 request / read response / write response 全部 channel
  • 支持 Confidential Computing:与 Intel TDX、AMD SEV、ARM CCA 的 TEE 集成,由 Tenant 控制配置
  • 可选 replay protection

设计目标是保护 Pod 流量免受物理对手 (例如插入 interposer 监听) 和共置租户攻击。

PHY 路线、Pod 规模、开放性是三大分歧,见 @tbl-hw-ualink-vs-nvlink。横向对比矩阵见 1.14 AI 互联标准对比

维度UALink 1.0NVLink 5.0
PHY复用 802.3 Ethernet SerDes (212.5 GBd)私有信令 (100 GT/s PAM4)
Pod 上限1024 加速器 (10-bit Routing ID)72 GPU (NVL72)
开放性多厂商可实现,IP 可购买 (Synopsys 已有 controller/PHY/VIP)NVIDIA 全栈封闭

@tbl-hw-ualink-vs-nvlink UALink 1.0 vs NVLink 5.0 关键差异

两条不同的 scale-up 设计哲学:NVIDIA 在 NVL72 上以 72 GPU × 1800 GB/s 取得"高带宽 + 中等域规模";UALink 1.0 选"以太网级 SerDes + 大域规模"路线 (1024 加速器),每加速器带宽暂时较低但 station 数可堆叠扩展。不是简单的"差几代"。

实现进展到哪一步?

1.0 规范发布 (2025-04) 到本文写作 (2026-05) 间的产业进展:

  • 2024-Q4: Synopsys 发布首批 UALink IP: controller / PHY / verification IP package[6]
  • 2025-04: 1.0 发布同期,AMD / Intel / Astera Labs 公开承诺将做 UALink silicon[4]
  • 2025-Q3: Marvell / Alchip 公布 UALink ASIC 设计服务支持
  • 2026 年底-2027:首批 UALink-native 加速器硅片量产窗口[7]

AMD MI400 / Instinct 后续代际预期是首个把 UALink 作为 native scale-up 链路的量产平台,但 AMD 在 2026-05 前未公开承诺具体型号。Intel Gaudi 路线图与 UALink 关系也未明确披露。

已知缺口和争议是什么?

量产时间晚 2-3 年、单加速器带宽较低、跨 Pod 仍需 scale-out 配合

  • 量产硅片落地时间:规范 2025-04,硅片 2026-2027,与 NVL72 (2024 量产) 间存在 2-3 年代差。希望在 2025-2026 扩 scale-up 域的客户没有现成方案[7]
  • 每加速器带宽:单 station 800 Gbps 远低于 NVLink 5.0 每 GPU 1800 GB/s。要追平需多 station 堆叠,但封装上 SerDes 数有限,"1024 加速器全互联"和"每加速器 1800 GB/s+"目前难以同时达成
  • 跨 Pod 通信:1.0 明确不规范跨 Pod,仍要走 scale-out (UEC / IB / RoCE)。规模超 1024 加速器的训练需 UALink + UEC 双协议栈,与 NVLink + IB 组合相比软件复杂度未显著降低
  • 集合通信原语:1.0 没有类似 NVLS 的 in-network compute (网内 AllReduce);2026-Q4 Common 3.0 路线图包含但形态未公开[5]
  • 互操作性:多厂商加速器在同一 Pod 内 (例如 AMD + Intel 混编) 的实际可行性,待 2025-08 Compliance & Interoperability 1.0 落地后才有真实验证

Takeaway

知识点核心结论
出现动机非 NVIDIA 阵营需对标 NVLink,做开放、Ethernet PHY、内存语义的 scale-up
PHY复用 802.3 Ethernet SerDes,200 GT/s/lane,4-lane Station = 800 Gbps
协议栈TL 64B Flit + DL 640B Flit (= 1 RS codeword),固定 Flit 对齐
Pod 规模单 Pod 1024 加速器,跨 Pod 留给 scale-out
性能目标链路效率 88-95%,Switch 单跳 <300 ns,端到端 ~250 ns,RTT <1μs
vs NVLink 5.0大域规模 + 开放 vs 高带宽 + 封闭,两条哲学
落地节奏规范 2025-04,硅片 2026-2027,比 NVL72 晚 2-3 年
关键缺口单加速器带宽低、跨 Pod 仍需 scale-out、无 in-network compute

参考资料

  1. UALink Consortium, UALink 200G 1.0 White Paper, 2025-04. https://ualinkconsortium.org/wp-content/uploads/2025/04/UALink-1.0-White_Paper_FINAL.pdf
  2. BusinessWire, UALink Promoter Group Formed, 2024-05-30. https://www.businesswire.com/news/home/20240530653602/
  3. BusinessWire, UALink Consortium Incorporated, 2024-10-29. https://www.businesswire.com/news/home/20241029998800/
  4. BusinessWire, UALink 200G 1.0 Specification Released, 2025-04-08. https://www.businesswire.com/news/home/20250408050548/en/
  5. Goel P., Evolving UALink and UEC as the Gold Standard for Accelerator Connectivity in AI, Future Memory & Storage 2025-08-07. https://files.futurememorystorage.com/proceedings/2025/20250807_NETC-304-1_Goel.pdf
  6. Synopsys, Industry's First UALink IP Solution, 2024-12-12. https://news.synopsys.com/2024-12-12-Synopsys-Delivers-Industrys-First-Ultra-Accelerator-Link-UALink-IP-Solution-for-Hyperscale-AI-Accelerators
  7. RCRTech, Interconnects: NVLink, UALink, and CXL. https://rcrtech.com/semiconductor-news/interconnects-nvlink-ualink-and-cxl/