UALink 1.0

开放 Scale-Up 互联标准的协议设计、现状与 NVLink 的对比

核心要点：

2024-05 由 AMD/Google/Meta 等 8 家发起，对标 NVLink 的开放标准

PHY 复用 802.3 Ethernet SerDes (212.5 GBd)，非私有信令

单 lane 200 GT/s，4-lane Station 提供 800 Gbps 单向

单 Pod 最多 1024 加速器 (10-bit Routing ID)

走 load/store 内存语义，整个 Pod 表现为"一颗超大 GPU"

量产硅片落地窗口 2026-2027，比 NVL72 （2024 量产）晚 2-3 年

UALink (Ultra Accelerator Link) 1.0 (200G) 规范于 2025-04 发布。本文写 UALink 本身：协议栈、关键参数、生态、时间线、局限。与 NVLink / IB / CXL 横向对比见 1.14 AI 互联标准对比。

本文新引入名词 (其他名词见 1.1 总览 Glossary):

Pod：一组通过 UALink Switch 全互联的加速器集合，由 Pod Controller 管理；跨 Pod 不属 UALink 规范
Station: 4 个 UALink lane 一组，提供 800 Gbps 单向带宽
ULS (UALink Switch)：单台最多 1024 端口
TL Flit / DL Flit：事务层 64B / 数据链路层 640B （含 32-bit CRC）
LLR (Link Level Replay)：基于 640B DL Flit 的链路层重传
UALinkSec：端到端加密 + 认证，支持 Confidential Computing (TDX / SEV / CCA)
Virtual Pod：物理 Pod 内通过 Switch 端口分组划出的隔离子集

为什么需要 UALink？

非 NVIDIA 阵营缺乏与 NVLink 对标的 scale-up 方案。Scale-up 互联在 2024 年前唯一规模化部署的是 NVIDIA NVLink + NVSwitch，协议私有，PHY / 交换芯片 / 软件栈全栈 NVIDIA 控制。其他 GPU 厂商（AMD MI300X 用 xGMI 但仅 8 卡封闭、Intel Gaudi 走 RoCE）没有对标方案。

UALink 1.0 白皮书把动机归纳为三点[1]:

链路效率：双向 memory access 优化，最大化数据带宽
TCO 降低：复用已有 Ethernet 基础设施（线缆、连接器、retimer、管理软件）
软件简化：走 memory semantics (read/write/atomic)，主机内存、本地加速器内存、远端加速器内存保持同一 ordering 模型

关键差异：scale-out 网络 (IB/RoCE/UEC) 走 send/recv 消息语义，软件要显式管理消息边界；UALink 走 load/store，跨加速器访问远端内存与本地内存编程模型一致，整个 Pod"看起来像一颗超大 GPU"。

联盟扩展和规范发布节奏？

2024-05 8 家发起 → 2025-04 1.0 规范发布 → 2026-Q4 计划 Common 3.0 (400G)，时间线见 @tbl-hw-ualink-timeline。

时间	事件	来源
2024-05	UALink Promoter Group 成立 (AMD / Broadcom / Cisco / Google / HPE / Intel / Meta / Microsoft)	[businesswire 2024-05][2]
2024-10	UALink Consortium 注册法人，AWS + Astera Labs 加入扩到 10 家	[businesswire 2024-10][3]
2025-01	Alibaba / Apple / Synopsys 加入 Board，扩至 13 家	[Kalyanasundharam][1]
2025-04	UALink 200G 1.0 规范发布 (DL/PL 1.0)	[businesswire 2025-04][4]
2025-06 （计划）	200G 1.0 含 128G 选项的修订，Systems & Manageability 1.0	[Goel 2025][5]
2025-08 （计划）	Compliance & Interoperability 1.0	[Goel 2025][5]
2025-09 （计划）	Chiplet 1.0	[Goel 2025][5]
2025-Q4 （计划）	UALink Common 2.0 （200G + 128G 共版本）	[Goel 2025][5]
2026-Q4 （计划）	UALink Common 3.0 （含 400G DL/PL）	[Goel 2025][5]

@tbl-hw-ualink-timeline UALink 时间线

到 1.0 发布时 (2025-04)，联盟已发展到 13 家 Board / Promoter + 70+ 家 Contributor，覆盖加速器厂商 (AMD / Intel / Apple)、Hyperscaler (Google / Meta / Microsoft / Alibaba / AWS)、交换硅厂商 (Broadcom / Cisco / Astera Labs)、IP 供应商 (Synopsys)，是非 NVIDIA 阵营的完整 scale-up 联盟。

物理层怎么定义？

基于 IEEE 802.3 Ethernet PHY （IEEE P802.3dj 草案），复用 Ethernet SerDes，参数见 @tbl-hw-ualink-phy。

参数	取值
单 lane 数据速率	200 GT/s （主选） / 100 GT/s （低速选项）
单 lane 信令速率	212.5 GBd（线上信令含 Ethernet L1 FEC 与编码开销）
物理层标准映射	200GBASE-KR1/CR1、400GBASE-KR2/CR2、800GBASE-KR4/CR4 (200G); 100GBASE-KR1/CR1 等 (100G)
链路配置	x1 / x2 / x4 lane 可选
Station 定义	4 lane 一组 = 800 Gbps TX + 800 Gbps RX
最大铜缆长度	< 4 米
编码	64B/66B （IEEE 802.3 子集）
FEC	标准 802.3 FEC，PCS/PMA 支持 reduced interleave 模式以降低 FEC 延迟

@tbl-hw-ualink-phy UALink 1.0 物理层参数

对 802.3 的修改：集中在 PCS (Physical Coding Sublayer) 和 PMA (Physical Medium Attachment)，通过 1-way / 2-way codeword interleave 降低 FEC 延迟，并把 RS (544, 514) codeword 与 640-byte DL Flit 对齐（单 DL Flit 恰好 = 一个 codeword），优化 latency 和 replay flit 数量。PMD / Auto-Negotiation / Link Training 不修改。

协议栈分几层？关键设计是什么？

四层 (Protocol / TL / DL / PHY)，固定 Flit 大小是核心设计[1]，见 @tbl-hw-ualink-stack。

层	数据单元	关键职责
Protocol Layer	UPLI 消息 (Req / OrigData / RdRsp+Data / WrRsp)	加速器内部 functional layer 接口，4 类 channel
Transaction Layer (TL)	TL Flit （64 字节）	UPLI 消息封装/解封、streaming address cache 地址压缩、Req/Rsp/Data 在 Flit 内复用
Data Link Layer (DL)	DL Flit （640 字节，含 32-bit CRC）	把 10 个 TL Flit 打包成 1 个 DL Flit、LLR、DL Message Service （UART-like F/W 通信）、TX Pacing / RX Rate Adaptation
Physical Layer	RS Codeword (544, 514)	802.3-derived PCS/PMA/PMD、FEC、SerDes 212.5G

@tbl-hw-ualink-stack UALink 协议栈

固定 Flit + codeword 对齐 是 UALink 区别于 PCIe / NVLink 的关键设计：

64B TL Flit 内可同时承载多个 request / 完成 / data。1.0 白皮书 Figure 8 给出"5 write request + 5 write completion + 1 flow control"打包到 21 个 TL Flit，效率 20/21 = 95.2%
640B DL Flit = 10 × 64B TL Flit，恰好填满一个 RS codeword，避免 replay 时跨 codeword 重发

Pod 规模和拓扑约束是什么？

单 Pod 最多 1024 加速器，跨 Pod 不属于 1.0 规范，参数见 @tbl-hw-ualink-pod。

参数	取值
单 Pod 最大加速器数	1024
Accelerator Routing ID	10-bit （= 1024 端点）
Pod Controller	单 OS Domain (SND) 内统一管理
跨 Pod 通信	不属于 1.0 规范（留给上层 / scale-out 网络）
Virtual Pod	支持 - 物理 Pod 内通过 Switch 端口分组划隔离子集
物理范围	1-4 racks （端到端）
Req-to-Rsp RTT 目标	< 1 μs

@tbl-hw-ualink-pod UALink Pod 规模与拓扑

拓扑组织：System Node 内可有 M 个 accelerator，每个加速器有 N 个对称端口流量均分。每加速器连到 ULS 一个端口，单 ULS 最多 1024 端口；超过单 switch 容量可走多级 switch 平面 (multi-plane switching) 扩展到 4096 端点（1.0 未启用，路线图在后续版本）。

性能目标长什么样？

链路有效带宽 88-95%，Switch 单跳延迟 <300 ns，指标见 @tbl-hw-ualink-perf。

指标	1.0 目标值	来源
链路有效带宽利用率	88% （起步） → 95% （优化）	[Goel 2025][5]
TL Flit 打包效率示例	95.2% （20/21, 256B 最大 payload）	UALink 1.0 Whitepaper Fig. 8
Switch 单跳延迟	< 300 ns (full scale)	[Goel 2025][5]
die-to-die / pin-to-pin 延迟（不含 switch hop）	< 100 ns	[Goel 2025][5]
端到端延迟（含 1 跳 ULS switch）	~250 ns	[Goel 2025][5]
Req-to-Rsp RTT	< 1 μs	UALink 1.0 Whitepaper
协议+PHY 功耗节省	~40% （vs 通用 Ethernet stack）	[Goel 2025][5]

@tbl-hw-ualink-perf UALink 1.0 性能与效率指标

延迟与功耗数字来自 Siemens EDA Goel 在 Future Memory & Storage 2025 大会的厂商演讲，属设计目标 / 仿真值，非量产硅片实测。1.0 规范刚发布，公开第三方实测尚未出现。

安全机制 (UALinkSec)

核心问题：UALinkSec 保护什么威胁模型、用什么机制？

端到端加密 + 认证，覆盖所有 UPLI channel[1]:

覆盖 request / read response / write response 全部 channel
支持 Confidential Computing：与 Intel TDX、AMD SEV、ARM CCA 的 TEE 集成，由 Tenant 控制配置
可选 replay protection

设计目标是保护 Pod 流量免受物理对手（例如插入 interposer 监听）和共置租户攻击。

UALink 1.0 与 NVLink 5.0 的关键差异？

PHY 路线、Pod 规模、开放性是三大分歧，见 @tbl-hw-ualink-vs-nvlink。横向对比矩阵见 1.14 AI 互联标准对比。

维度	UALink 1.0	NVLink 5.0
PHY	复用 802.3 Ethernet SerDes (212.5 GBd)	私有信令 (100 GT/s PAM4)
Pod 上限	1024 加速器 (10-bit Routing ID)	72 GPU (NVL72)
开放性	多厂商可实现，IP 可购买（Synopsys 已有 controller/PHY/VIP）	NVIDIA 全栈封闭

@tbl-hw-ualink-vs-nvlink UALink 1.0 vs NVLink 5.0 关键差异

两条不同的 scale-up 设计哲学：NVIDIA 在 NVL72 上以 72 GPU × 1800 GB/s 取得"高带宽 + 中等域规模"；UALink 1.0 选"以太网级 SerDes + 大域规模"路线（1024 加速器），每加速器带宽暂时较低但 station 数可堆叠扩展。不是简单的"差几代"。

实现进展到哪一步？

1.0 规范发布 (2025-04) 到本文写作 (2026-05) 间的产业进展：

2024-Q4: Synopsys 发布首批 UALink IP: controller / PHY / verification IP package[6]
2025-04: 1.0 发布同期，AMD / Intel / Astera Labs 公开承诺将做 UALink silicon[4]
2025-Q3: Marvell / Alchip 公布 UALink ASIC 设计服务支持
2026 年底-2027：首批 UALink-native 加速器硅片量产窗口[7]

AMD MI400 / Instinct 后续代际预期是首个把 UALink 作为 native scale-up 链路的量产平台，但 AMD 在 2026-05 前未公开承诺具体型号。Intel Gaudi 路线图与 UALink 关系也未明确披露。

已知缺口和争议是什么？

量产时间晚 2-3 年、单加速器带宽较低、跨 Pod 仍需 scale-out 配合：

量产硅片落地时间：规范 2025-04，硅片 2026-2027，与 NVL72 （2024 量产）间存在 2-3 年代差。希望在 2025-2026 扩 scale-up 域的客户没有现成方案[7]
每加速器带宽：单 station 800 Gbps 远低于 NVLink 5.0 每 GPU 1800 GB/s。要追平需多 station 堆叠，但封装上 SerDes 数有限，"1024 加速器全互联"和"每加速器 1800 GB/s+"目前难以同时达成
跨 Pod 通信：1.0 明确不规范跨 Pod，仍要走 scale-out (UEC / IB / RoCE)。规模超 1024 加速器的训练需 UALink + UEC 双协议栈，与 NVLink + IB 组合相比软件复杂度未显著降低
集合通信原语：1.0 没有类似 NVLS 的 in-network compute （网内 AllReduce）；2026-Q4 Common 3.0 路线图包含但形态未公开[5]
互操作性：多厂商加速器在同一 Pod 内（例如 AMD + Intel 混编）的实际可行性，待 2025-08 Compliance & Interoperability 1.0 落地后才有真实验证

Takeaway

知识点	核心结论
出现动机	非 NVIDIA 阵营需对标 NVLink，做开放、Ethernet PHY、内存语义的 scale-up
PHY	复用 802.3 Ethernet SerDes，200 GT/s/lane，4-lane Station = 800 Gbps
协议栈	TL 64B Flit + DL 640B Flit (= 1 RS codeword)，固定 Flit 对齐
Pod 规模	单 Pod 1024 加速器，跨 Pod 留给 scale-out
性能目标	链路效率 88-95%，Switch 单跳 <300 ns，端到端 ~250 ns，RTT <1μs
vs NVLink 5.0	大域规模 + 开放 vs 高带宽 + 封闭，两条哲学
落地节奏	规范 2025-04，硅片 2026-2027，比 NVL72 晚 2-3 年
关键缺口	单加速器带宽低、跨 Pod 仍需 scale-out、无 in-network compute

参考资料

UALink Consortium, UALink 200G 1.0 White Paper, 2025-04. https://ualinkconsortium.org/wp-content/uploads/2025/04/UALink-1.0-White_Paper_FINAL.pdf
BusinessWire, UALink Promoter Group Formed, 2024-05-30. https://www.businesswire.com/news/home/20240530653602/
BusinessWire, UALink Consortium Incorporated, 2024-10-29. https://www.businesswire.com/news/home/20241029998800/
BusinessWire, UALink 200G 1.0 Specification Released, 2025-04-08. https://www.businesswire.com/news/home/20250408050548/en/
Goel P., Evolving UALink and UEC as the Gold Standard for Accelerator Connectivity in AI, Future Memory & Storage 2025-08-07. https://files.futurememorystorage.com/proceedings/2025/20250807_NETC-304-1_Goel.pdf
Synopsys, Industry's First UALink IP Solution, 2024-12-12. https://news.synopsys.com/2024-12-12-Synopsys-Delivers-Industrys-First-Ultra-Accelerator-Link-UALink-IP-Solution-for-Hyperscale-AI-Accelerators
RCRTech, Interconnects: NVLink, UALink, and CXL. https://rcrtech.com/semiconductor-news/interconnects-nvlink-ualink-and-cxl/

为什么需要 UALink？​

联盟扩展和规范发布节奏？​

物理层怎么定义？​

协议栈分几层？关键设计是什么？​

Pod 规模和拓扑约束是什么？​

性能目标长什么样？​

安全机制 (UALinkSec)​

UALink 1.0 与 NVLink 5.0 的关键差异？​

实现进展到哪一步？​

已知缺口和争议是什么？​

Takeaway​

参考资料​