跳到主要内容

总览

本章节范围:大模型训练/推理集群的互联拓扑设计 — 网络图结构、割集带宽、路由特性、拥塞热点、成本模型,以及各厂商的拓扑选型与实际部署方案。 目标读者:需要在 LLM 集群选型、容量规划、并行策略对齐中理解拓扑约束的工程师。

范围与边界 (Scope)

名词定义

本章节所有概念型文档默认这些名词已定义,见 @tbl-topo-glossary

名词定义
拓扑 (Topology)多节点通过链路形成的网络图结构,决定数据包的可选路径集合
割集带宽 (Bisection Bandwidth)将节点集合对半划分时横跨两侧的链路总带宽之和;集合通信性能的首要约束
直径 (Diameter)网络中任意两节点间最短路径长度的最大值,反映最坏情况下的通信跳数
度数 (Degree)单节点直接邻居数量 = 物理链路数
全割集带宽 (Full Bisection)$\frac{N}{2} \cdot b$ ($b$ 为单节点上行带宽),任意半数节点通信不受拓扑阻塞
过订阅比 (Oversubscription)下行带宽 / 上行带宽,>1 即存在收敛比
Vertex-Transitive任意节点局部结构对称,所有节点通信性能一致,无热点节点
拥塞热点多条流量汇聚到同一链路,实际可用带宽远低于物理线速
OCS (Optical Circuit Switch)光路交换机,通过重配光纤连接动态改变拓扑

@tbl-topo-glossary 共享名词表

拓扑分类速查

6 大类

  • 全互联:Full Mesh / Complete Graph、NVSwitch 全互联域
  • 规则图:Ring、2D Torus、3D Torus / Mesh、Hypercube
  • 多级交换:Fat-tree / Clos、Dragonfly / Dragonfly+、HyperX / Flattened Butterfly、Rail-Optimized Fat-tree
  • 代数构造低直径图:SlimFly (MMS 图)、PolarFly (极性图)
  • 随机 / 结构化扩展图:Jellyfish (随机正则图)、Xpander (结构化 expander)
  • 服务器中心:BCube、DCell
  • 动态:OCS 光路交换 (MEMS / Rotor / 硅光)

各拓扑核心指标 (@tbl-topo-metrics)

$b$ = 单链路带宽,$N$ = 节点数,$k$ = 交换机端口数。

拓扑度数链路数割集带宽直径Vertex-Transitive成本
Full Mesh$N-1$$\frac{N(N-1)}{2}$$(\frac{N}{2})^2 b$1Yes极高
Ring2$N$$2b$$\lfloor N/2 \rfloor$Yes最低
2D Torus4$2N$$2\sqrt{N} \cdot b$$\sqrt{N}$Yes
3D Torus6$3N$$2N^{2/3} \cdot b$$\frac{3}{2}N^{1/3}$Yes
Fat-tree (Clos)$k$$\frac{5}{4}N$$\frac{N}{2}b$6 (3 级固定)No
Dragonfly$h+a-1$$\sim N$$\sim 0.7 \cdot \frac{N}{2}b$3No
Dragonfly+同 Dragonfly$\sim N$$> 0.7 \cdot \frac{N}{2}b$5-7No
Hypercube$\log_2 N$$\frac{N}{2}\log_2 N$$\frac{N}{2}b$$\log_2 N$Yes中-高
HyperX$\sum(S_i-1)$$N_{sw}\sum\frac{S_i-1}{2}$可配置$L$Yes
SlimFly$O(\sqrt{N})$$\frac{N}{2}O(\sqrt{N})$$\sim\frac{N}{2}b$2Yes中 (Clos 的 1/2)
PolarFly$q+1$$\frac{N(q+1)}{2}$$\sim\frac{N}{2}b$2Yes中 (同 SlimFly)
Jellyfish$d$ (固定)$\frac{Nd}{2}$$\sim\frac{dN}{4}b$$O(\log N)$No同 Fat-tree
Xpander$d$ (固定)$\frac{Nd}{2}$$\sim 0.9 \cdot \frac{dN}{4}b$$O(\log N)$No同 Jellyfish
BCube ($k$)$k+1$递归$\frac{n^{k+1}}{2}b$$k+1$No低 (服务器中心)
OCS动态动态动态重配取决于底层中-高

@tbl-topo-metrics 各拓扑核心指标

关键观察

  • 割集最大:Fat-tree / Hypercube / SlimFly 均达上限 $\frac{N}{2}b$;Full Mesh 的 $(\frac{N}{2})^2 b$ 二次增长但线缆同步增长,不可扩展
  • 直径最小:Full Mesh = 1 (不可扩展);SlimFly 恒为 2[1]
  • 成本最低:Torus ($O(N)$ 链路),但割集带宽仅 Fat-tree 的 20-60%

割集带宽随规模 ($N$) 的变化 (@tbl-topo-scale):

$N$Full Mesh / Fat-tree3D TorusTorus/FT 比Dragonfly+
64$32b$$32b$100%~$22b$
256$128b$$80b$63%~$90b$
1,024$512b$$204b$40%~$360b$
4,096$2048b$$512b$25%~$1,440b$
8,960$4480b$$920b$21%~$3,130b$

@tbl-topo-scale 割集带宽随规模变化

Fat-tree 始终保持全割集,代价是链路数 $O(N \log N)$ vs Torus $O(N)$

拓扑评估的四维框架

通信效率 (割集 / 直径 / 拥塞 / 路由) + 成本 (交换机 / 线缆 / 功耗) + 可扩展性 (规模 / 增量 / 故障容忍) + 运维复杂度 (布线 / 路由配置 / 故障定位)。

关键指标权重

  • 割集带宽 (BB) 是第一优先级。AllReduce 理论带宽下界 $\frac{2(N-1)}{N} \cdot \frac{M}{\beta}$[2],割集不足时被截断到 $BB_{actual}$,与节点数无关
  • 直径 影响延迟敏感操作 (PP P2P、小消息 AllReduce)。但 LLM 训练大消息 AllReduce (>100 MB) 受带宽限制,直径权重低于割集
  • 拥塞特性 在 AllToAll (MoE) 场景下关键。Torus 上 AllToAll 拥塞比 (最忙链路负载/平均) 可达 $O(\sqrt{N})$;Fat-tree 通过 ECMP 控制在 $O(\log N)$
  • 成本:相同割集下 Fat-tree 线缆成本是 Torus 的 3-5×。400G IB 交换机 ~$940-1170/port,400G 以太网 ~$625-860/port,400G AOC (50m) ~$300-600/port-pair (2024 行业报价)

大模型并行策略的拓扑敏感点

并行策略通信模式拓扑敏感点
TP (张量并行)AllReduce,每层都触发节点内拓扑 — 高割集 + 低直径
PP (流水线并行)P2P,仅相邻阶段路径带宽 — 与线性拓扑天然匹配
EP (专家并行)AllToAll,大消息非均匀全局带宽 — 对割集要求最高
DP (数据并行)AllReduce,大消息全局割集 — 带宽瓶颈,延迟不敏感

@tbl-topo-parallel 并行策略的拓扑敏感点

MoE (如 DeepSeek-V3) 的 AllToAll 对拓扑要求最苛刻:Expert 节点间需要大规模 many-to-many 数据交换,易在非全带宽拓扑形成拥塞[3]

拓扑与并行策略适配矩阵 (@tbl-topo-fit):

拓扑TPPPEP (MoE)DP推荐主用
Full Mesh (≤72)极高N/A (仅节点内)TP 为主
3D Torus中-高PP + DP
Fat-tree高 (内) + 中 (跨节点)全策略
Dragonfly+中-高DP + EP
Hypercube中-高中-高TP + EP

@tbl-topo-fit 拓扑与并行策略适配

Fat-tree 因全割集成为 MoE 首选;Torus 的 AllToAll 拥塞需通过 Expert 放置策略缓解[4]

子文档索引 (Index)

参考资料

  1. Besta M. and Hoefler T., Slim Fly: A Cost Effective Low-Diameter Network Topology, SC 2014. https://doi.org/10.1109/SC.2014.34
  2. Thakur R. et al., Optimization of Collective Communication Operations in MPICH, IJHPCA 2005. https://doi.org/10.1109/TPDS.2005.90
  3. Fedus W. et al., Switch Transformers. https://arxiv.org/abs/2101.03961
  4. Jouppi N. et al., TPU v4: An Optically Reconfigurable Supercomputer for ML, ISCA 2023. https://arxiv.org/abs/2304.01433