跳到主要内容

Ultra Ethernet (UEC)

UEC 的传输层创新,以及作为 RDMA 替代方案与 RoCEv2 的对比

核心要点

  • Linux Foundation 旗下开放 scale-out 通信栈,对标 IB / RoCEv2
  • Spec 1.0 于 2025-06-11 发布,覆盖 PHY → Software → Storage → Security 多层
  • 核心创新在 UET 传输层:packet spraying + 选择性重传 + Trimming
  • 走 libfabric API,不复用 RDMA Verbs
  • 包级 spraying 解决 ECMP 大流热点;bitmap ACK 取代 go-back-N
  • 多厂商生态:AMD Pollara / Broadcom Thor Ultra + Tomahawk Ultra 等

本文新引入名词 (其他名词见 1.1 总览 Glossary):

  • scale-out:跨节点横向扩展网络,承担 DP 梯度同步、EP All-to-All 等
  • Packet Spraying:同一消息数据包按包级 (而非流级) 哈希分发到多条等价路径,避 ECMP 热点
  • Selective Retransmission:仅重传丢失包,非 go-back-N 整段重传
  • UET (Ultra Ethernet Transport): UEC 自研传输层,对应 IB Transport 或 RoCEv2 BTH
  • PDS (Packet Delivery Sub-layer): UET 内可靠传输与多路径分发子层
  • SES (Semantic Sub-layer): UET 内 libfabric 语义到 wire 消息映射子层
  • Trimming:拥塞时不丢整包,截断 payload 仅留头部并提升优先级转发
  • NSCC: Network Signaled Congestion Control,sender-based 拥塞控制
  • RCCC: Receiver Credit-based Congestion Control,receiver-based 信用拥塞控制

为什么需要 UEC?

RoCEv2 / IB 在万卡集群下的痛点逼出新协议,对应关系见 @tbl-hw-uec-motivation

痛点RoCEv2 现状IB 现状UEC 目标
大流哈希热点ECMP 5-tuple,单条 GPU-GPU 大流钉一条路径Adaptive Routing 部分缓解但封闭包级 spraying,路径利用率均衡
丢包恢复昂贵RC go-back-N,丢一包重传整窗go-back-N 类似选择性重传,仅重传丢失包
无损依赖 PFC依赖 PFC 逐跳背压,易触发拥塞扩散和死锁Credit-based flow control,封闭Trimming + sender/receiver CC,降低 PFC 依赖
厂商锁定多厂商但 ConnectX/Spectrum 主导单一供应商 (NVIDIA/Mellanox)多厂商开放,复用以太网产业链
In-cast 拥塞DCQCN 调参困难,反应慢同样存在RCCC 信用机制,receiver 主动节流

@tbl-hw-uec-motivation RoCEv2/IB 痛点与 UEC 目标

横向对比矩阵见 1.14 AI 互联标准对比

联盟和时间线

核心问题:UEC 联盟由谁发起、规范发布节奏和量产落地时间节点是什么?

时间事件
2023-07UEC 在 Linux Foundation 下成立,初始成员 AMD / Intel / Broadcom / Cisco / Arista / Meta / Microsoft / HPE 等[1]
2023-10与 OCP 建立合作[1]
2024-Q3原计划 1.0 发布窗口 (延期)[2]
2025-06-11UEC Specification 1.0 正式发布,CC BY-ND 4.0 协议[3][4]
2025-07-15Broadcom 发布 Tomahawk Ultra (51.2 Tbps,UEC 兼容)[5]
2025-10-14Broadcom 发布 Thor Ultra 800G NIC (UEC compliant)[6]
持续AMD Pensando Pollara 400 自称首款 UEC-ready AI NIC[7]

@tbl-hw-uec-timeline UEC 关键时间线

成员规模:截至 2025 年中超 50 家厂商,覆盖芯片、网卡、交换机、云厂商与系统集成商[1]

UET 协议栈长什么样?

SES (语义) + PDS (传输) 两子层,跑在标准 UDP/IP 之上

应用层 (MPI / NCCL / collective lib / 存储客户端)
|
libfabric API (OFI)
|
+----------------------+
| UET Transport Layer |
| - SES (Semantic Sub-layer) 消息语义、libfabric 映射
| - PDS (Packet Delivery Sub-layer) 可靠传输、多路径、拥塞控制
+----------------------+
|
UDP / IP (标准)
|
以太网 L2 (含 LLR / PRI 增强)
|
IEEE 802.3 PHY (800G / 1.6T)

Packet Spraying 怎么解 ECMP 热点?

把同一消息的数据包按包级分发到所有可用路径,而不是 ECMP 5-tuple 流级哈希。

VIAVI 1.0 解读:"By ensuring all paths get used equally, fabric hot spots caused by imperfect load balancing of very large flows—a major problem today—are avoided"[8]

代价:接收侧必须接受 out-of-order 到达。PDS 通过单调递增的 Packet Sequence Number (PSN) 跟踪,SES 在需要顺序时向上层提供排序语义[9]

Selective Retransmission 怎么避免 go-back-N?

Bitmap ACK + 选择性重传。PDS 用 64-bit bitmap 一次性确认 64 个序号 ACK 状态,比 TCP SACK 选项更紧凑[9]。发送方只重传 bitmap 中标记丢失的包。

拥塞控制三件机制怎么协作?

NSCC + RCCC + Trimming 三层互补[8]:

  • NSCC (sender-based): sender 根据 ECN、CSIG (Congestion Signaling, Broadcom Tomahawk 系列实现) 等反馈调速[6]
  • RCCC (receiver-based): receiver 通过信用控制 incast 汇聚处的多对一拥塞
  • Trimming:交换机拥塞时不直接丢包,而是截断 payload 仅留头部,trimmed packet 放高优队列快速送达 receiver,receiver 立即触发重传请求。比传统 drop+timeout 反应快得多[8]

UET 还支持 rapid connection startup:握手完成前即可开始发数据,降低短消息建链开销[8]

SES 端到端语义提供什么?

libfabric API → wire message 映射,支持 4 种交付模式[9],见 @tbl-hw-uec-delivery

模式全称说明
RODReliable Ordered Delivery可靠按序,对应 RoCEv2 RC
RUDReliable Unordered Delivery可靠不按序,AI 集合通信常用
RUDIReliable Unordered Idempotent可靠 + 不按序 + 操作幂等
UUDUnreliable Unordered Delivery不可靠不按序,对应 UDP 风格

@tbl-hw-uec-delivery UET 四种交付模式

支持 RDMA SEND/WRITE/READ/ATOMICS、RENDEZVOUS、RESPONSE 等操作,覆盖集合通信和 MPI 语义。

链路层做了哪些增强?

LLR + PRI + Link Negotiation 三件[10]:

  • LLR (Link Level Retry):链路层快速重传配合 FEC,减少对 PFC 的依赖
  • PRI (Packet Rate Improvement):压缩以太网/IP 头部,提升小包速率
  • Link Negotiation Protocol:扩展 LLDP,自动协商对端支持的 LLR/PRI 等特性

与 RoCEv2 / IB 关键差异?

Packet spraying、选择性重传、Trimming 是三个标志性创新,差异见 @tbl-hw-uec-vs-others。完整规格矩阵见 1.14 AI 互联标准对比

维度RoCEv2InfiniBandUltra Ethernet
物理层标准以太网IB 专有 PHY标准以太网 (802.3)
上层 APIVerbsVerbslibfabric
多路径5-tuple 流级 ECMP (大流热点)Adaptive Routing (封闭)包级 spraying (路径均衡)
重传粒度go-back-N (RC)go-back-N选择性重传 + bitmap ACK
拥塞控制PFC + DCQCN/ECNCredit-basedNSCC + RCCC + Trimming
无损机制PFC 逐跳背压 (易扩散/死锁)链路层 creditTrimming + 端到端 CC,弱化 PFC
开放性开放但生态偏 NVIDIA单一厂商多厂商开放
1.0 状态2014 成熟长期演进2025-06 v1.0

@tbl-hw-uec-vs-others UEC vs RoCEv2 / IB

首批商用产品有哪些?

AMD Pollara 400 + Broadcom Thor Ultra (NIC) + Tomahawk Ultra/6 (Switch),见 @tbl-hw-uec-products

厂商产品类型时间关键参数
AMDPensando Pollara 400NIC2024-2025 出货自称首款 UEC-ready AI NIC,400G[7]
BroadcomThor UltraNIC2025-10-14 采样800G、UEC compliant、PCIe Gen6、支持 packet trimming 与 CSIG[6]
BroadcomTomahawk UltraSwitch2025-07-15 出货51.2 Tbps,250 ns latency,64B 线速,topology-aware routing (支持 Dragonfly/Mesh/Torus)[5]
BroadcomTomahawk 6Switch2025 出货102.4 Tbps,与 Thor Ultra 配套[6]

@tbl-hw-uec-products UEC 首批商用产品

Nokia / Cisco / Arista 等也已公开声明产品路线图对齐 UEC,但具体型号仍在规划/采样阶段[11]

已知缺口和争议?

  • 生态成熟度:1.0 发布距大规模生产部署仍需时间,与 IB 长期积累的工具链、调优经验有差距。UEC 自身合规测试套件 2025 全年滚动发布[8]
  • 多厂商互操作:spec 定义多种 profile (AI / HPC 等),不同 NIC 与 switch 组合的功能交集仍需验证
  • 治理争议:Tom Herbert 在公开评述中批评 UEC "pay-to-play"会员制与 IETF/Linux 开源治理原则不符,可能阻碍长尾参与[9]
  • NCCL 适配:NCCL 等主流集合通信库对 UET 的原生支持节奏未完全明朗,目前主要通过 libfabric 适配
  • 与 UALink 边界:UEC 定位 scale-out,与 NVLink/NVSwitch 等 scale-up 互联互补;scale-up 域开放替代由 UALink 推进,不在 UEC 范围[12]
  • 延迟绝对值:尽管 Tomahawk Ultra 报告 250 ns 交换机延迟,UET 端到端延迟与 IB NDR/XDR 的横向对比仍缺公开 benchmark

Takeaway

知识点核心结论
出现动机RoCEv2/IB 在万卡集群暴露的 5 个痛点
协议栈libfabric → UET (SES + PDS) → UDP/IP → 802.3
Packet Spraying包级分发解 ECMP 热点,代价是 receiver 接受 OOO
Selective RetransmissionBitmap ACK 取代 go-back-N
拥塞三件NSCC + RCCC + Trimming 互补
商用产品AMD Pollara / Broadcom Thor Ultra + Tomahawk Ultra/6
边界scale-out 定位;scale-up 由 UALink 负责
短板生态/工具链不如 IB 成熟,NCCL 适配不明朗

参考资料

  1. STORDIS, Ultra Ethernet Consortium Explained, 2025-12. https://stordis.com/ultra-ethernet-consortium/
  2. Phoronix, UEC Publishes 1.0 Specification, 2025-06-11. https://www.phoronix.com/news/Ultra-Ethernet-1.0-UEC
  3. Ultra Ethernet Consortium, UEC Launches Specification 1.0, 2025-06-11. https://ultraethernet.org/ultra-ethernet-consortium-uec-launches-specification-1-0-transforming-ethernet-for-ai-and-hpc-at-scale/
  4. Ultra Ethernet Consortium, Ultra Ethernet Specification v1.0, 2025-06-11. https://ultraethernet.org/wp-content/uploads/sites/20/2025/06/UE-Specification-6.11.25.pdf
  5. Broadcom, Broadcom Ships Tomahawk Ultra, 2025-07-15. https://investors.broadcom.com/news-releases/news-release-details/broadcom-ships-tomahawk-ultra-reimagining-ethernet-switch-hpc
  6. Broadcom, Industry's First 800G AI Ethernet NIC (Thor Ultra), 2025-10-14. https://investors.broadcom.com/news-releases/news-release-details/broadcom-introduces-industrys-first-800g-ai-ethernet-nic
  7. AMD, AMD Pensando Pollara 400 AI NIC. https://www.amd.com/en/products/network-interface-cards/pensando.html
  8. VIAVI Solutions, Inside UE 1.0: What Ultra Ethernet Means for AI and HPC Networks, 2025-08-13. https://blog.viavisolutions.com/2025/08/13/inside-ue-1-0-what-ultra-ethernet-means-for-ai-and-hpc-networks/
  9. Tom Herbert, A (mostly) Unbiased Review of the Ultra Ethernet Specification v1.0, Medium, 2025-06-30. https://medium.com/@tom_84912/a-mostly-unbiased-review-of-the-ultra-ethernet-specification-10d816227839
  10. Synopsys, Verification of UAL and UEC Protocols. https://www.synopsys.com/blogs/chip-design/verification-of-ual-uec-protocols-for-scalable-hpc-ai-net.html
  11. Nokia, Nokia celebrates UEC, 2025-06-16. https://www.nokia.com/blog/nokia-celebrates-the-future-of-ai-networking-with-ultra-ethernet-consortium/
  12. Synopsys, Ultra Ethernet and UALink in AI Networks. https://www.synopsys.com/articles/ultra-ethernet-ualink-ai-networks.html