UALink 1.0
开放 Scale-Up 互联标准的协议设计、现状与 NVLink 的对比
核心要点:
- 2024-05 由 AMD/Google/Meta 等 8 家发起,对标 NVLink 的开放标准
- PHY 复用 802.3 Ethernet SerDes (212.5 GBd),非私有信令
- 单 lane 200 GT/s,4-lane Station 提供 800 Gbps 单向
- 单 Pod 最多 1024 加速器 (10-bit Routing ID)
- 走 load/store 内存语义,整个 Pod 表现为"一颗超大 GPU"
- 量产硅片落地窗口 2026-2027,比 NVL72 (2024 量产) 晚 2-3 年
UALink (Ultra Accelerator Link) 1.0 (200G) 规范于 2025-04 发布。本文写 UALink 本身:协议栈、关键参数、生态、时间线、局限。与 NVLink / IB / CXL 横向对比见 1.14 AI 互联标准对比。
本文新引入名词 (其他名词见 1.1 总览 Glossary):
- Pod:一组通过 UALink Switch 全互联的加速器集合,由 Pod Controller 管理;跨 Pod 不属 UALink 规范
- Station: 4 个 UALink lane 一组,提供 800 Gbps 单向带宽
- ULS (UALink Switch):单台最多 1024 端口
- TL Flit / DL Flit:事务层 64B / 数据链路层 640B (含 32-bit CRC)
- LLR (Link Level Replay):基于 640B DL Flit 的链路层重传
- UALinkSec:端到端加密 + 认证,支持 Confidential Computing (TDX / SEV / CCA)
- Virtual Pod:物理 Pod 内通过 Switch 端口分组划出的隔离子集
为什么需要 UALink?
非 NVIDIA 阵营缺乏与 NVLink 对标的 scale-up 方案。Scale-up 互联在 2024 年前唯一规模化部署的是 NVIDIA NVLink + NVSwitch,协议私有,PHY / 交换芯片 / 软件栈全栈 NVIDIA 控制。其他 GPU 厂商 (AMD MI300X 用 xGMI 但仅 8 卡封闭、Intel Gaudi 走 RoCE) 没有对标方案。
UALink 1.0 白皮书把动机归纳为三点[1]:
- 链路效率:双向 memory access 优化,最大化数据带宽
- TCO 降低:复用已有 Ethernet 基础设施 (线缆、连接器、retimer、管理软件)
- 软件简化:走 memory semantics (read/write/atomic),主机内存、本地加速器内存、远端加速器内存保持同一 ordering 模型
关键差异:scale-out 网络 (IB/RoCE/UEC) 走 send/recv 消息语义,软件要显式管理消息边界;UALink 走 load/store,跨加速器访问远端内存与本地内存编程模型一致,整个 Pod"看起来像一颗超大 GPU"。
联盟扩展和规范发布节奏?
2024-05 8 家发起 → 2025-04 1.0 规范发布 → 2026-Q4 计划 Common 3.0 (400G),时间线见 @tbl-hw-ualink-timeline。
| 时间 | 事件 | 来源 |
|---|---|---|
| 2024-05 | UALink Promoter Group 成立 (AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft) | [businesswire 2024-05][2] |
| 2024-10 | UALink Consortium 注册法人,AWS + Astera Labs 加入扩到 10 家 | [businesswire 2024-10][3] |
| 2025-01 | Alibaba / Apple / Synopsys 加入 Board,扩至 13 家 | [Kalyanasundharam][1] |
| 2025-04 | UALink 200G 1.0 规范发布 (DL/PL 1.0) | [businesswire 2025-04][4] |
| 2025-06 (计划) | 200G 1.0 含 128G 选项的修订,Systems & Manageability 1.0 | [Goel 2025][5] |
| 2025-08 (计划) | Compliance & Interoperability 1.0 | [Goel 2025][5] |
| 2025-09 (计划) | Chiplet 1.0 | [Goel 2025][5] |
| 2025-Q4 (计划) | UALink Common 2.0 (200G + 128G 共版本) | [Goel 2025][5] |
| 2026-Q4 (计划) | UALink Common 3.0 (含 400G DL/PL) | [Goel 2025][5] |
@tbl-hw-ualink-timeline UALink 时间线
到 1.0 发布时 (2025-04),联盟已发展到 13 家 Board / Promoter + 70+ 家 Contributor,覆盖加速器厂商 (AMD / Intel / Apple)、Hyperscaler (Google / Meta / Microsoft / Alibaba / AWS)、交换硅厂商 (Broadcom / Cisco / Astera Labs)、IP 供应商 (Synopsys),是非 NVIDIA 阵营的完整 scale-up 联盟。
物理层怎么定义?
基于 IEEE 802.3 Ethernet PHY (IEEE P802.3dj 草案),复用 Ethernet SerDes,参数见 @tbl-hw-ualink-phy。
| 参数 | 取值 |
|---|---|
| 单 lane 数据速率 | 200 GT/s (主选) / 100 GT/s (低速选项) |
| 单 lane 信令速率 | 212.5 GBd(线上信令含 Ethernet L1 FEC 与编码开销) |
| 物理层标准映射 | 200GBASE-KR1/CR1、400GBASE-KR2/CR2、800GBASE-KR4/CR4 (200G); 100GBASE-KR1/CR1 等 (100G) |
| 链路配置 | x1 / x2 / x4 lane 可选 |
| Station 定义 | 4 lane 一组 = 800 Gbps TX + 800 Gbps RX |
| 最大铜缆长度 | < 4 米 |
| 编码 | 64B/66B (IEEE 802.3 子集) |
| FEC | 标准 802.3 FEC,PCS/PMA 支持 reduced interleave 模式以降低 FEC 延迟 |
@tbl-hw-ualink-phy UALink 1.0 物理层参数
对 802.3 的修改:集中在 PCS (Physical Coding Sublayer) 和 PMA (Physical Medium Attachment),通过 1-way / 2-way codeword interleave 降低 FEC 延迟,并把 RS (544, 514) codeword 与 640-byte DL Flit 对齐 (单 DL Flit 恰好 = 一个 codeword),优化 latency 和 replay flit 数量。PMD / Auto-Negotiation / Link Training 不修改。
协议栈分几层?关键设计是什么?
四层 (Protocol / TL / DL / PHY),固定 Flit 大小是核心设计[1],见 @tbl-hw-ualink-stack。
| 层 | 数据单元 | 关键职责 |
|---|---|---|
| Protocol Layer | UPLI 消息 (Req / OrigData / RdRsp+Data / WrRsp) | 加速器内部 functional layer 接口,4 类 channel |
| Transaction Layer (TL) | TL Flit (64 字节) | UPLI 消息封装/解封、streaming address cache 地址压缩、Req/Rsp/Data 在 Flit 内复用 |
| Data Link Layer (DL) | DL Flit (640 字节,含 32-bit CRC) | 把 10 个 TL Flit 打包成 1 个 DL Flit、LLR、DL Message Service (UART-like F/W 通信)、TX Pacing / RX Rate Adaptation |
| Physical Layer | RS Codeword (544, 514) | 802.3-derived PCS/PMA/PMD、FEC、SerDes 212.5G |
@tbl-hw-ualink-stack UALink 协议栈
固定 Flit + codeword 对齐 是 UALink 区别于 PCIe / NVLink 的关键设计:
- 64B TL Flit 内可同时承载多个 request / 完成 / data。1.0 白皮书 Figure 8 给出"5 write request + 5 write completion + 1 flow control"打包到 21 个 TL Flit,效率 20/21 = 95.2%
- 640B DL Flit = 10 × 64B TL Flit,恰好填满一个 RS codeword,避免 replay 时跨 codeword 重发
Pod 规模和拓扑约束是什么?
单 Pod 最多 1024 加速器,跨 Pod 不属于 1.0 规范,参数见 @tbl-hw-ualink-pod。
| 参数 | 取值 |
|---|---|
| 单 Pod 最大加速器数 | 1024 |
| Accelerator Routing ID | 10-bit (= 1024 端点) |
| Pod Controller | 单 OS Domain (SND) 内统一管理 |
| 跨 Pod 通信 | 不属于 1.0 规范 (留给上层 / scale-out 网络) |
| Virtual Pod | 支持 - 物理 Pod 内通过 Switch 端口分组划隔离子集 |
| 物理范围 | 1-4 racks (端到端) |
| Req-to-Rsp RTT 目标 | < 1 μs |
@tbl-hw-ualink-pod UALink Pod 规模与拓扑
拓扑组织:System Node 内可有 M 个 accelerator,每个加速器有 N 个对称端口流量均分。每加速器连到 ULS 一个端口,单 ULS 最多 1024 端口;超过单 switch 容量可走多级 switch 平面 (multi-plane switching) 扩展到 4096 端点 (1.0 未启用,路线图在后续版本)。
性能目标长什么样?
链路有效带宽 88-95%,Switch 单跳延迟 <300 ns,指标见 @tbl-hw-ualink-perf。
| 指标 | 1.0 目标值 | 来源 |
|---|---|---|
| 链路有效带宽利用率 | 88% (起步) → 95% (优化) | [Goel 2025][5] |
| TL Flit 打包效率示例 | 95.2% (20/21, 256B 最大 payload) | UALink 1.0 Whitepaper Fig. 8 |
| Switch 单跳延迟 | < 300 ns (full scale) | [Goel 2025][5] |
| die-to-die / pin-to-pin 延迟(不含 switch hop) | < 100 ns | [Goel 2025][5] |
| 端到端延迟(含 1 跳 ULS switch) | ~250 ns | [Goel 2025][5] |
| Req-to-Rsp RTT | < 1 μs | UALink 1.0 Whitepaper |
| 协议+PHY 功耗节省 | ~40% (vs 通用 Ethernet stack) | [Goel 2025][5] |
@tbl-hw-ualink-perf UALink 1.0 性能与效率指标
延迟与功耗数字来自 Siemens EDA Goel 在 Future Memory & Storage 2025 大会的厂商演讲,属设计目标 / 仿真值,非量产硅片实测。1.0 规范刚发布,公开第三方实测尚未出现。
安全机制 (UALinkSec)
核心问题:UALinkSec 保护什么威胁模型、用什么机制?
端到端加密 + 认证,覆盖所有 UPLI channel[1]:
- 覆盖 request / read response / write response 全部 channel
- 支持 Confidential Computing:与 Intel TDX、AMD SEV、ARM CCA 的 TEE 集成,由 Tenant 控制配置
- 可选 replay protection
设计目标是保护 Pod 流量免受物理对手 (例如插入 interposer 监听) 和共置租户攻击。
UALink 1.0 与 NVLink 5.0 的关键差异?
PHY 路线、Pod 规模、开放性是三大分歧,见 @tbl-hw-ualink-vs-nvlink。横向对比矩阵见 1.14 AI 互联标准对比。
| 维度 | UALink 1.0 | NVLink 5.0 |
|---|---|---|
| PHY | 复用 802.3 Ethernet SerDes (212.5 GBd) | 私有信令 (100 GT/s PAM4) |
| Pod 上限 | 1024 加速器 (10-bit Routing ID) | 72 GPU (NVL72) |
| 开放性 | 多厂商可实现,IP 可购买 (Synopsys 已有 controller/PHY/VIP) | NVIDIA 全栈封闭 |
@tbl-hw-ualink-vs-nvlink UALink 1.0 vs NVLink 5.0 关键差异
两条不同的 scale-up 设计哲学:NVIDIA 在 NVL72 上以 72 GPU × 1800 GB/s 取得"高带宽 + 中等域规模";UALink 1.0 选"以太网级 SerDes + 大域规模"路线 (1024 加速器),每加速器带宽暂时较低但 station 数可堆叠扩展。不是简单的"差几代"。
实现进展到哪一步?
1.0 规范发布 (2025-04) 到本文写作 (2026-05) 间的产业进展:
- 2024-Q4: Synopsys 发布首批 UALink IP: controller / PHY / verification IP package[6]
- 2025-04: 1.0 发布同期,AMD / Intel / Astera Labs 公开承诺将做 UALink silicon[4]
- 2025-Q3: Marvell / Alchip 公布 UALink ASIC 设计服务支持
- 2026 年底-2027:首批 UALink-native 加速器硅片量产窗口[7]
AMD MI400 / Instinct 后续代际预期是首个把 UALink 作为 native scale-up 链路的量产平台,但 AMD 在 2026-05 前未公开承诺具体型号。Intel Gaudi 路线图与 UALink 关系也未明确披露。
已知缺口和争议是什么?
量产时间晚 2-3 年、单加速器带宽较低、跨 Pod 仍需 scale-out 配合:
- 量产硅片落地时间:规范 2025-04,硅片 2026-2027,与 NVL72 (2024 量产) 间存在 2-3 年代差。希望在 2025-2026 扩 scale-up 域的客户没有现成方案[7]
- 每加速器带宽:单 station 800 Gbps 远低于 NVLink 5.0 每 GPU 1800 GB/s。要追平需多 station 堆叠,但封装上 SerDes 数有限,"1024 加速器全互联"和"每加速器 1800 GB/s+"目前难以同时达成
- 跨 Pod 通信:1.0 明确不规范跨 Pod,仍要走 scale-out (UEC / IB / RoCE)。规模超 1024 加速器的训练需 UALink + UEC 双协议栈,与 NVLink + IB 组合相比软件复杂度未显著降低
- 集合通信原语:1.0 没有类似 NVLS 的 in-network compute (网内 AllReduce);2026-Q4 Common 3.0 路线图包含但形态未公开[5]
- 互操作性:多厂商加速器在同一 Pod 内 (例如 AMD + Intel 混编) 的实际可行性,待 2025-08 Compliance & Interoperability 1.0 落地后才有真实验证
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 出现动机 | 非 NVIDIA 阵营需对标 NVLink,做开放、Ethernet PHY、内存语义的 scale-up |
| PHY | 复用 802.3 Ethernet SerDes,200 GT/s/lane,4-lane Station = 800 Gbps |
| 协议栈 | TL 64B Flit + DL 640B Flit (= 1 RS codeword),固定 Flit 对齐 |
| Pod 规模 | 单 Pod 1024 加速器,跨 Pod 留给 scale-out |
| 性能目标 | 链路效率 88-95%,Switch 单跳 <300 ns,端到端 ~250 ns,RTT <1μs |
| vs NVLink 5.0 | 大域规模 + 开放 vs 高带宽 + 封闭,两条哲学 |
| 落地节奏 | 规范 2025-04,硅片 2026-2027,比 NVL72 晚 2-3 年 |
| 关键缺口 | 单加速器带宽低、跨 Pod 仍需 scale-out、无 in-network compute |
参考资料
- UALink Consortium, UALink 200G 1.0 White Paper, 2025-04. https://ualinkconsortium.org/wp-content/uploads/2025/04/UALink-1.0-White_Paper_FINAL.pdf
- BusinessWire, UALink Promoter Group Formed, 2024-05-30. https://www.businesswire.com/news/home/20240530653602/
- BusinessWire, UALink Consortium Incorporated, 2024-10-29. https://www.businesswire.com/news/home/20241029998800/
- BusinessWire, UALink 200G 1.0 Specification Released, 2025-04-08. https://www.businesswire.com/news/home/20250408050548/en/
- Goel P., Evolving UALink and UEC as the Gold Standard for Accelerator Connectivity in AI, Future Memory & Storage 2025-08-07. https://files.futurememorystorage.com/proceedings/2025/20250807_NETC-304-1_Goel.pdf
- Synopsys, Industry's First UALink IP Solution, 2024-12-12. https://news.synopsys.com/2024-12-12-Synopsys-Delivers-Industrys-First-Ultra-Accelerator-Link-UALink-IP-Solution-for-Hyperscale-AI-Accelerators
- RCRTech, Interconnects: NVLink, UALink, and CXL. https://rcrtech.com/semiconductor-news/interconnects-nvlink-ualink-and-cxl/