Ultra Ethernet (UEC)
UEC 的传输层创新,以及作为 RDMA 替代方案与 RoCEv2 的对比
核心要点:
- Linux Foundation 旗下开放 scale-out 通信栈,对标 IB / RoCEv2
- Spec 1.0 于 2025-06-11 发布,覆盖 PHY → Software → Storage → Security 多层
- 核心创新在 UET 传输层:packet spraying + 选择性重传 + Trimming
- 走 libfabric API,不复用 RDMA Verbs
- 包级 spraying 解决 ECMP 大流热点;bitmap ACK 取代 go-back-N
- 多厂商生态:AMD Pollara / Broadcom Thor Ultra + Tomahawk Ultra 等
本文新引入名词 (其他名词见 1.1 总览 Glossary):
- scale-out:跨节点横向扩展网络,承担 DP 梯度同步、EP All-to-All 等
- Packet Spraying:同一消息数据包按包级 (而非流级) 哈希分发到多条等价路径,避 ECMP 热点
- Selective Retransmission:仅重传丢失包,非 go-back-N 整段重传
- UET (Ultra Ethernet Transport): UEC 自研传输层,对应 IB Transport 或 RoCEv2 BTH
- PDS (Packet Delivery Sub-layer): UET 内可靠传输与多路径分发子层
- SES (Semantic Sub-layer): UET 内 libfabric 语义到 wire 消息映射子层
- Trimming:拥塞时不丢整包,截断 payload 仅留头部并提升优先级转发
- NSCC: Network Signaled Congestion Control,sender-based 拥塞控制
- RCCC: Receiver Credit-based Congestion Control,receiver-based 信用拥塞控制
为什么需要 UEC?
RoCEv2 / IB 在万卡集群下的痛点逼出新协议,对应关系见 @tbl-hw-uec-motivation。
| 痛点 | RoCEv2 现状 | IB 现状 | UEC 目标 |
|---|---|---|---|
| 大流哈希热点 | ECMP 5-tuple,单条 GPU-GPU 大流钉一条路径 | Adaptive Routing 部分缓解但封闭 | 包级 spraying,路径利用率均衡 |
| 丢包恢复昂贵 | RC go-back-N,丢一包重传整窗 | go-back-N 类似 | 选择性重传,仅重传丢失包 |
| 无损依赖 PFC | 依赖 PFC 逐跳背压,易触发拥塞扩散和死锁 | Credit-based flow control,封闭 | Trimming + sender/receiver CC,降低 PFC 依赖 |
| 厂商锁定 | 多厂商但 ConnectX/Spectrum 主导 | 单一供应商 (NVIDIA/Mellanox) | 多厂商开放,复用以太网产业链 |
| In-cast 拥塞 | DCQCN 调参困难,反应慢 | 同样存在 | RCCC 信用机制,receiver 主动节流 |
@tbl-hw-uec-motivation RoCEv2/IB 痛点与 UEC 目标
横向对比矩阵见 1.14 AI 互联标准对比。
联盟和时间线
核心问题:UEC 联盟由谁发起、规范发布节奏和量产落地时间节点是什么?
| 时间 | 事件 |
|---|---|
| 2023-07 | UEC 在 Linux Foundation 下成立,初始成员 AMD / Intel / Broadcom / Cisco / Arista / Meta / Microsoft / HPE 等[1] |
| 2023-10 | 与 OCP 建立合作[1] |
| 2024-Q3 | 原计划 1.0 发布窗口 (延期)[2] |
| 2025-06-11 | UEC Specification 1.0 正式发布,CC BY-ND 4.0 协议[3][4] |
| 2025-07-15 | Broadcom 发布 Tomahawk Ultra (51.2 Tbps,UEC 兼容)[5] |
| 2025-10-14 | Broadcom 发布 Thor Ultra 800G NIC (UEC compliant)[6] |
| 持续 | AMD Pensando Pollara 400 自称首款 UEC-ready AI NIC[7] |
@tbl-hw-uec-timeline UEC 关键时间线
成员规模:截至 2025 年中超 50 家厂商,覆盖芯片、网卡、交换机、云厂商与系统集成商[1]。
UET 协议栈长什么样?
SES (语义) + PDS (传输) 两子层,跑在标准 UDP/IP 之上:
应用层 (MPI / NCCL / collective lib / 存储客户端)
|
libfabric API (OFI)
|
+----------------------+
| UET Transport Layer |
| - SES (Semantic Sub-layer) 消息语义、libfabric 映射
| - PDS (Packet Delivery Sub-layer) 可靠传输、多路径、拥塞控制
+----------------------+
|
UDP / IP (标准)
|
以太网 L2 (含 LLR / PRI 增强)
|
IEEE 802.3 PHY (800G / 1.6T)
Packet Spraying 怎么解 ECMP 热点?
把同一消息的数据包按包级分发到所有可用路径,而不是 ECMP 5-tuple 流级哈希。
VIAVI 1.0 解读:"By ensuring all paths get used equally, fabric hot spots caused by imperfect load balancing of very large flows—a major problem today—are avoided"[8]。
代价:接收侧必须接受 out-of-order 到达。PDS 通过单调递增的 Packet Sequence Number (PSN) 跟踪,SES 在需要顺序时向上层提供排序语义[9]。
Selective Retransmission 怎么避免 go-back-N?
Bitmap ACK + 选择性重传。PDS 用 64-bit bitmap 一次性确认 64 个序号 ACK 状态,比 TCP SACK 选项更紧凑[9]。发送方只重传 bitmap 中标记丢失的包。
拥塞控制三件机制怎么协作?
NSCC + RCCC + Trimming 三层互补[8]:
- NSCC (sender-based): sender 根据 ECN、CSIG (Congestion Signaling, Broadcom Tomahawk 系列实现) 等反馈调速[6]
- RCCC (receiver-based): receiver 通过信用控制 incast 汇聚处的多对一拥塞
- Trimming:交换机拥塞时不直接丢包,而是截断 payload 仅留头部,trimmed packet 放高优队列快速送达 receiver,receiver 立即触发重传请求。比传统 drop+timeout 反应快得多[8]
UET 还支持 rapid connection startup:握手完成前即可开始发数据,降低短消息建链开销[8]。
SES 端到端语义提供什么?
libfabric API → wire message 映射,支持 4 种交付模式[9],见 @tbl-hw-uec-delivery。
| 模式 | 全称 | 说明 |
|---|---|---|
| ROD | Reliable Ordered Delivery | 可靠按序,对应 RoCEv2 RC |
| RUD | Reliable Unordered Delivery | 可靠不按序,AI 集合通信常用 |
| RUDI | Reliable Unordered Idempotent | 可靠 + 不按序 + 操作幂等 |
| UUD | Unreliable Unordered Delivery | 不可靠不按序,对应 UDP 风格 |
@tbl-hw-uec-delivery UET 四种交付模式
支持 RDMA SEND/WRITE/READ/ATOMICS、RENDEZVOUS、RESPONSE 等操作,覆盖集合通信和 MPI 语义。
链路层做了哪些增强?
LLR + PRI + Link Negotiation 三件[10]:
- LLR (Link Level Retry):链路层快速重传配合 FEC,减少对 PFC 的依赖
- PRI (Packet Rate Improvement):压缩以太网/IP 头部,提升小包速率
- Link Negotiation Protocol:扩展 LLDP,自动协商对端支持的 LLR/PRI 等特性
与 RoCEv2 / IB 关键差异?
Packet spraying、选择性重传、Trimming 是三个标志性创新,差异见 @tbl-hw-uec-vs-others。完整规格矩阵见 1.14 AI 互联标准对比。
| 维度 | RoCEv2 | InfiniBand | Ultra Ethernet |
|---|---|---|---|
| 物理层 | 标准以太网 | IB 专有 PHY | 标准以太网 (802.3) |
| 上层 API | Verbs | Verbs | libfabric |
| 多路径 | 5-tuple 流级 ECMP (大流热点) | Adaptive Routing (封闭) | 包级 spraying (路径均衡) |
| 重传粒度 | go-back-N (RC) | go-back-N | 选择性重传 + bitmap ACK |
| 拥塞控制 | PFC + DCQCN/ECN | Credit-based | NSCC + RCCC + Trimming |
| 无损机制 | PFC 逐跳背压 (易扩散/死锁) | 链路层 credit | Trimming + 端到端 CC,弱化 PFC |
| 开放性 | 开放但生态偏 NVIDIA | 单一厂商 | 多厂商开放 |
| 1.0 状态 | 2014 成熟 | 长期演进 | 2025-06 v1.0 |
@tbl-hw-uec-vs-others UEC vs RoCEv2 / IB
首批商用产品有哪些?
AMD Pollara 400 + Broadcom Thor Ultra (NIC) + Tomahawk Ultra/6 (Switch),见 @tbl-hw-uec-products。
| 厂商 | 产品 | 类型 | 时间 | 关键参数 |
|---|---|---|---|---|
| AMD | Pensando Pollara 400 | NIC | 2024-2025 出货 | 自称首款 UEC-ready AI NIC,400G[7] |
| Broadcom | Thor Ultra | NIC | 2025-10-14 采样 | 800G、UEC compliant、PCIe Gen6、支持 packet trimming 与 CSIG[6] |
| Broadcom | Tomahawk Ultra | Switch | 2025-07-15 出货 | 51.2 Tbps,250 ns latency,64B 线速,topology-aware routing (支持 Dragonfly/Mesh/Torus)[5] |
| Broadcom | Tomahawk 6 | Switch | 2025 出货 | 102.4 Tbps,与 Thor Ultra 配套[6] |
@tbl-hw-uec-products UEC 首批商用产品
Nokia / Cisco / Arista 等也已公开声明产品路线图对齐 UEC,但具体型号仍在规划/采样阶段[11]。
已知缺口和争议?
- 生态成熟度:1.0 发布距大规模生产部署仍需时间,与 IB 长期积累的工具链、调优经验有差距。UEC 自身合规测试套件 2025 全年滚动发布[8]
- 多厂商互操作:spec 定义多种 profile (AI / HPC 等),不同 NIC 与 switch 组合的功能交集仍需验证
- 治理争议:Tom Herbert 在公开评述中批评 UEC "pay-to-play"会员制与 IETF/Linux 开源治理原则不符,可能阻碍长尾参与[9]
- NCCL 适配:NCCL 等主流集合通信库对 UET 的原生支持节奏未完全明朗,目前主要通过 libfabric 适配
- 与 UALink 边界:UEC 定位 scale-out,与 NVLink/NVSwitch 等 scale-up 互联互补;scale-up 域开放替代由 UALink 推进,不在 UEC 范围[12]
- 延迟绝对值:尽管 Tomahawk Ultra 报告 250 ns 交换机延迟,UET 端到端延迟与 IB NDR/XDR 的横向对比仍缺公开 benchmark
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 出现动机 | RoCEv2/IB 在万卡集群暴露的 5 个痛点 |
| 协议栈 | libfabric → UET (SES + PDS) → UDP/IP → 802.3 |
| Packet Spraying | 包级分发解 ECMP 热点,代价是 receiver 接受 OOO |
| Selective Retransmission | Bitmap ACK 取代 go-back-N |
| 拥塞三件 | NSCC + RCCC + Trimming 互补 |
| 商用产品 | AMD Pollara / Broadcom Thor Ultra + Tomahawk Ultra/6 |
| 边界 | scale-out 定位;scale-up 由 UALink 负责 |
| 短板 | 生态/工具链不如 IB 成熟,NCCL 适配不明朗 |
参考资料
- STORDIS, Ultra Ethernet Consortium Explained, 2025-12. https://stordis.com/ultra-ethernet-consortium/
- Phoronix, UEC Publishes 1.0 Specification, 2025-06-11. https://www.phoronix.com/news/Ultra-Ethernet-1.0-UEC
- Ultra Ethernet Consortium, UEC Launches Specification 1.0, 2025-06-11. https://ultraethernet.org/ultra-ethernet-consortium-uec-launches-specification-1-0-transforming-ethernet-for-ai-and-hpc-at-scale/
- Ultra Ethernet Consortium, Ultra Ethernet Specification v1.0, 2025-06-11. https://ultraethernet.org/wp-content/uploads/sites/20/2025/06/UE-Specification-6.11.25.pdf
- Broadcom, Broadcom Ships Tomahawk Ultra, 2025-07-15. https://investors.broadcom.com/news-releases/news-release-details/broadcom-ships-tomahawk-ultra-reimagining-ethernet-switch-hpc
- Broadcom, Industry's First 800G AI Ethernet NIC (Thor Ultra), 2025-10-14. https://investors.broadcom.com/news-releases/news-release-details/broadcom-introduces-industrys-first-800g-ai-ethernet-nic
- AMD, AMD Pensando Pollara 400 AI NIC. https://www.amd.com/en/products/network-interface-cards/pensando.html
- VIAVI Solutions, Inside UE 1.0: What Ultra Ethernet Means for AI and HPC Networks, 2025-08-13. https://blog.viavisolutions.com/2025/08/13/inside-ue-1-0-what-ultra-ethernet-means-for-ai-and-hpc-networks/
- Tom Herbert, A (mostly) Unbiased Review of the Ultra Ethernet Specification v1.0, Medium, 2025-06-30. https://medium.com/@tom_84912/a-mostly-unbiased-review-of-the-ultra-ethernet-specification-10d816227839
- Synopsys, Verification of UAL and UEC Protocols. https://www.synopsys.com/blogs/chip-design/verification-of-ual-uec-protocols-for-scalable-hpc-ai-net.html
- Nokia, Nokia celebrates UEC, 2025-06-16. https://www.nokia.com/blog/nokia-celebrates-the-future-of-ai-networking-with-ultra-ethernet-consortium/
- Synopsys, Ultra Ethernet and UALink in AI Networks. https://www.synopsys.com/articles/ultra-ethernet-ualink-ai-networks.html