路由策略选型指南
核心要点:
- Fat-tree 路由空间最大:ECMP / E-ECMP / WCMP / AR / Packet Spraying / DQPLB / PLB+PRR / SRv6 都可选
- Torus 拓扑首选 DOR;Dragonfly 首选 UGAL;Jellyfish / Xpander 只能选 KSP
- 选型核心权衡:带宽利用率 vs 延迟可预测性,训练偏前者推理偏后者
- 大规模生产部署普遍采用多层协同(如 Fairwater = MRC + Multiplane + Static SRv6)
本文汇总各路由策略的适用场景和性能特性矩阵,结合拓扑类型给出选型建议。
策略性能矩阵
核心问题:一张矩阵里各路由策略在延迟、带宽、适应流量类型上的综合评分如何排布?
| 策略 | 带宽利用率 | 延迟可预测性 | 报文有序性 | 硬件要求 | 适用拓扑 |
|---|---|---|---|---|---|
| ECMP | 受哈希碰撞限制 | 高 | 保证(流级别) | 通用 ASIC | Fat-tree、Clos |
| E-ECMP + QP Scaling | 高(多 QP 降低碰撞) | 高 | 保证 | 支持 UDF 的 ASIC | Fat-tree、Clos |
| WCMP | 高(权重适配链路容量) | 高 | 保证 | 通用 ASIC + SDN | Fat-tree(含故障链路) |
| AR per-flowlet | 高(实时拥塞感知) | 中 | 基本保证 | 专用 AR ASIC | Fat-tree、IB |
| AR per-packet | 最高级别之一 | 中 | 不保证 | AR ASIC + 重排序 | Fat-tree、IB |
| DOR | 高(通信与维度对齐时) | 最高(确定性) | 保证 | 通用(维度感知) | Torus、Mesh |
| UGAL | 高(动态最短路/Valiant 切换) | 中 | 保证 | 支持队列深度读取 | Dragonfly |
| Packet Spraying | 最高(统计均匀分散) | 低(乱序恢复) | 不保证 | 新一代 NIC + 重排序缓冲 | Fat-tree |
| KSP | 取决于 $K$ 和路径长度分布 | 中(路径不等长) | 保证(流级别) | TCAM 容量支持多路径 | Jellyfish、Xpander |
| DQPLB | 高(CQE 反馈动态调度) | 中 | 保证(双序号 + IMM opcode) | 通用 RoCEv2 ASIC | Rail-Optimized + 多 NIC |
| TE-CCL | 理论最优(离线 MILP 求解) | 高(编译时确定) | 保证 | 任意(schedule plugin) | 任意 DAG(小规模) |
| PLB / PRR | 中(拥塞/故障触发 repath) | 中 | 保证(idle period repath) | 现代 ASIC(含 flow label 哈希)+ Linux 6.0+ | Fat-tree / Clos IPv6 |
| SRv6 | 高(编译时最优路径) | 最高(编译时确定) | 保证 | SRv6 ASIC + IPv6 | 任意 IPv6 网络(含跨 DC) |
@tbl-route-selection-matrix 路由策略性能矩阵
按拓扑类型的选型建议
核心问题:Fat-tree/Torus/Dragonfly 各自最优的路由策略和选型理由是什么?
Fat-tree / Clos(数据中心主流拓扑)
Fat-tree 拥有丰富的等价路径,路由策略的选择空间最大。
| 场景 | 推荐策略 | 理由 |
|---|---|---|
| 通用互联网/混合流量 | ECMP | 流量熵值高,哈希碰撞概率低 |
| AI 训练集群(AllReduce 为主) | E-ECMP + QP Scaling | 解决大流低熵导致的哈希碰撞($\href{/interconnect/路由算法/ecmp}{\text{(3.2)}}$) |
| 含故障链路或非对称拓扑 | WCMP | 按实际链路容量加权分配流量 |
| 需要高实时性的拥塞响应 | AR per-flowlet | flowlet 边界重选路,选路判据同 per-packet($\href{/interconnect/路由算法/自适应路由}{\text{(3.14)}}$) |
| 极致带宽利用率(含 UEC NIC) | Packet Spraying | 每报文独立分散($\href{/interconnect/路由算法/packet-spraying}{\text{(3.28)}}$) |
| 100K+ GPU + Rail-Optimized + 异构链路 | DQPLB | 通信库主动调度 QP + CQE 反馈(见 3.9 DQPLB) |
| 流量矩阵规律 + 需要全局最优 | TE-CCL[1] | MILP 离线求解,运行时按表执行(见 3.10 TE-CCL) |
| 主机驱动拥塞/故障响应(IPv6) | PLB + PRR | host transport 改 IPv6 flow label 触发 ECMP 重哈希(见 3.11 PLB / PRR) |
| 全 IPv6 + 跨 DC + 需要路径编程 | SRv6 | SID list 编码完整路径(见 3.12 SRv6) |
@tbl-route-selection-fattree Fat-tree / Clos 拓扑选型
典型案例:
- Meta 24K GPU 集群:E-ECMP + QP Scaling[2]
- Meta Llama4 训练(96K GPU):NCCLX + DQPLB[3]
- Microsoft Fairwater AI 数据中心:MRC + Multiplane + Static SRv6 三层协同[4]
- Google 数据中心:PLB + PRR + Bolt 协同栈[5][6]
Torus / Mesh(Google TPU 系列)
Torus 拓扑的规则结构使 DOR 成为首选,路径确定性强。
| 场景 | 推荐策略 | 理由 |
|---|---|---|
| 标准 3D Torus + AllReduce | DOR + 维度分解 | 通信与维度对齐,无跨维度链路竞争 |
| 需要提升 bisection bandwidth | OCS 重配 Twisted Torus + DOR | 光交换动态重配拓扑 |
| 工作负载不与维度对齐 | 有限的 ECMP(仅同维度内) | DOR 路径多样性低,需局部多路径补充 |
@tbl-route-selection-torus Torus / Mesh 拓扑选型
典型案例:
- Google TPU v4/v5/v6/Ironwood:3D Torus + DOR + OCS[7]
- XLA 编译器在编译时将 TP/DP/PP 分配到对应 Torus 维度,路由静态确定
Dragonfly(HPC 超算)
Dragonfly 的稀疏全局链路是瓶颈,需要 UGAL 的动态切换来平衡最短路和绕路。
| 场景 | 推荐策略 | 理由 |
|---|---|---|
| 标准工作负载 | UGAL | 动态选择 Minimal 或 Valiant($\href{/interconnect/路由算法/ugal}{\text{(3.27)}}$) |
| 高强度 AllToAll(MoE) | UGAL + 全局链路容量规划 | AllToAll 天然均匀分布,Valiant 比例高 |
| 全局 AllReduce | 分层通信 | 限制在组内,全局链路只传规约结果 |
| 研究/探索 | Q-adaptive | 强化学习路由(学术阶段) |
@tbl-route-selection-dragonfly Dragonfly 拓扑选型
典型案例:
- HPE Slingshot(Frontier 超算):UGAL
- Dragonfly 在大规模 LLM 训练中受全局链路限制,行业正在评估替代方案
Rail-Optimized(NVLink + InfiniBand 双网络)
节点内 NVLink 和节点间 IB 是两个完全独立的网络域,路由策略分层处理。
| 层级 | 推荐策略 | 理由 |
|---|---|---|
| NVLink 域内(8/72 GPU) | NVSwitch 全互联 | 无需路由选择,全交叉带宽 |
| InfiniBand 域间 | 硬件 AR per-flowlet + SHARP | HCA 硬件重排序对应用透明 |
| 并行策略分配 | TP 在 NVLink 域内,PP/DP 走 IB | 最大化 NVLink 高带宽利用 |
@tbl-route-selection-rail Rail-Optimized 双网络选型
决策流程
核心问题:给定集群拓扑和流量模式,路由策略选型的决策流程是什么?
是否有明确的拓扑类型?
|
+-- Torus/Mesh --> DOR(+ OCS 优化)
+-- Dragonfly --> UGAL
+-- Jellyfish/Xpander --> KSP(K-Shortest Paths)
+-- Fat-tree/Clos --> 继续判断
|
v
流量矩阵规律 + 拓扑稳定 + 求解器可用?
|
+-- 是 --> TE-CCL 离线最优 schedule
+-- 否 --> 继续判断
|
v
GPU 规模 >= 100K + Rail-Optimized + 异构链路?
|
+-- 是 --> DQPLB(通信库 + CQE 反馈)
+-- 否 --> 继续判断
|
v
全 IPv6 + 跨 DC 或需要路径编程?
|
+-- 是 --> SRv6(与 MRC / Multiplane 协同)
+-- 否 --> 继续判断
|
v
有 IPv6 + Linux 6.0+ host stack(需主机响应拥塞/故障)?
|
+-- 是 --> PLB + PRR + 拥塞控制(Bolt/Swift/DCTCP)
+-- 否 --> 继续判断
|
v
是否已有 UEC 1.0 NIC?
|
+-- 是 --> Packet Spraying(统计均匀分散)
+-- 否 --> 继续判断
|
v
是否有 AR ASIC(Quantum/Spectrum-4/Tomahawk 4+)?
|
+-- 是 --> 自适应路由(per-flowlet)
+-- 否 --> 继续判断
|
v
AI 工作负载(大流、低熵)?
|
+-- 是 --> E-ECMP + QP Scaling
+-- 否(通用流量) --> 标准 ECMP
带宽利用率与延迟的权衡
核心问题:路由策略中带宽利用率和延迟之间如何权衡?包喷洒和自适应路由的代价是什么?
所有路由策略都在以下两个维度间做取舍:
带宽利用率:从 ECMP 到 Packet Spraying 递增,但随之而来的是更高的系统复杂度、硬件要求和不确定性。策略越激进(如 per-packet 分散),链路利用越均匀,但需要更多硬件支持(重排序缓冲、AR ASIC)。
延迟可预测性:DOR 提供最高确定性(路径在部署时由坐标差唯一确定),AR 和 Packet Spraying 的延迟受实时网络状态影响,尾延迟较高。
AI 推理场景(对尾延迟敏感)倾向于确定性路由;AI 训练场景(对吞吐量敏感)倾向于高带宽利用率策略。
Takeaway
| 选型维度 | 推荐 |
|---|---|
| Fat-tree 通用流量 | ECMP |
| Fat-tree + AI 训练 | E-ECMP + QP Scaling,规模 ≥ 100K 升级 DQPLB |
| Fat-tree + IPv6 + host 控制 | PLB + PRR + Bolt |
| Fat-tree + 全 IPv6 跨 DC | Static SRv6 + MRC + Multiplane |
| Torus / Mesh | DOR + 维度分解 |
| Dragonfly | UGAL |
| Jellyfish / Xpander | KSP |
| 流量矩阵规律 + 小规模 | TE-CCL 离线 schedule |
| UEC NIC 在手 | Packet Spraying |
参考资料
- Liu et al., Rethinking ML Collective Communication as a Multi-Commodity Flow Problem, SIGCOMM 2024. https://dl.acm.org/doi/10.1145/3651890.3672249
- Gangidi et al., RDMA over Ethernet for Distributed AI Training at Meta Scale, SIGCOMM 2024. https://dl.acm.org/doi/10.1145/3651890.3672233
- Collective Communication for 100k+ GPUs, arXiv:2510.20171 (Meta, 2025). https://arxiv.org/abs/2510.20171
- segment-routing.net, Microsoft: SRv6 powers the largest AI DC in the world, 2025-10. https://www.segment-routing.net/news/2025-10-13-Microsoft-SRv6-powers-the-largest-AI-DC-in-the-world/
- Qureshi et al., PLB: Congestion Signals are Simple and Effective for Network Load Balancing, SIGCOMM 2022. https://dl.acm.org/doi/10.1145/3544216.3544226
- Wetherall et al., Improving Network Availability with Protective ReRoute, SIGCOMM 2023. https://dl.acm.org/doi/10.1145/3603269.3604867
- Jouppi et al., TPU v4: An Optically Reconfigurable Supercomputer, ISCA 2023. https://arxiv.org/abs/2304.01433