总览
本章节范围:大模型训练/推理集群的互联拓扑设计 — 网络图结构、割集带宽、路由特性、拥塞热点、成本模型,以及各厂商的拓扑选型与实际部署方案。 目标读者:需要在 LLM 集群选型、容量规划、并行策略对齐中理解拓扑约束的工程师。
范围与边界 (Scope)
- 包含:各拓扑的图结构、关键指标 (割集 / 直径 / 度数 / 成本)、与并行策略的适配性、典型部署案例
- 不包含:单链路协议 (→ 01-硬件互联)、路由算法实现 (→ 03-路由算法)、集合通信原语 (→ 04-集合通信)、性能建模公式 (→ 06-通信性能建模)
名词定义
本章节所有概念型文档默认这些名词已定义,见 @tbl-topo-glossary。
| 名词 | 定义 |
|---|---|
| 拓扑 (Topology) | 多节点通过链路形成的网络图结构,决定数据包的可选路径集合 |
| 割集带宽 (Bisection Bandwidth) | 将节点集合对半划分时横跨两侧的链路总带宽之和;集合通信性能的首要约束 |
| 直径 (Diameter) | 网络中任意两节点间最短路径长度的最大值,反映最坏情况下的通信跳数 |
| 度数 (Degree) | 单节点直接邻居数量 = 物理链路数 |
| 全割集带宽 (Full Bisection) | $\frac{N}{2} \cdot b$ ($b$ 为单节点上行带宽),任意半数节点通信不受拓扑阻塞 |
| 过订阅比 (Oversubscription) | 下行带宽 / 上行带宽,>1 即存在收敛比 |
| Vertex-Transitive | 任意节点局部结构对称,所有节点通信性能一致,无热点节点 |
| 拥塞热点 | 多条流量汇聚到同一链路,实际可用带宽远低于物理线速 |
| OCS (Optical Circuit Switch) | 光路交换机,通过重配光纤连接动态改变拓扑 |
@tbl-topo-glossary 共享名词表
拓扑分类速查
6 大类:
- 全互联:Full Mesh / Complete Graph、NVSwitch 全互联域
- 规则图:Ring、2D Torus、3D Torus / Mesh、Hypercube
- 多级交换:Fat-tree / Clos、Dragonfly / Dragonfly+、HyperX / Flattened Butterfly、Rail-Optimized Fat-tree
- 代数构造低直径图:SlimFly (MMS 图)、PolarFly (极性图)
- 随机 / 结构化扩展图:Jellyfish (随机正则图)、Xpander (结构化 expander)
- 服务器中心:BCube、DCell
- 动态:OCS 光路交换 (MEMS / Rotor / 硅光)
各拓扑核心指标 (@tbl-topo-metrics)
$b$ = 单链路带宽,$N$ = 节点数,$k$ = 交换机端口数。
| 拓扑 | 度数 | 链路数 | 割集带宽 | 直径 | Vertex-Transitive | 成本 |
|---|---|---|---|---|---|---|
| Full Mesh | $N-1$ | $\frac{N(N-1)}{2}$ | $(\frac{N}{2})^2 b$ | 1 | Yes | 极高 |
| Ring | 2 | $N$ | $2b$ | $\lfloor N/2 \rfloor$ | Yes | 最低 |
| 2D Torus | 4 | $2N$ | $2\sqrt{N} \cdot b$ | $\sqrt{N}$ | Yes | 低 |
| 3D Torus | 6 | $3N$ | $2N^{2/3} \cdot b$ | $\frac{3}{2}N^{1/3}$ | Yes | 中 |
| Fat-tree (Clos) | $k$ | $\frac{5}{4}N$ | $\frac{N}{2}b$ | 6 (3 级固定) | No | 高 |
| Dragonfly | $h+a-1$ | $\sim N$ | $\sim 0.7 \cdot \frac{N}{2}b$ | 3 | No | 中 |
| Dragonfly+ | 同 Dragonfly | $\sim N$ | $> 0.7 \cdot \frac{N}{2}b$ | 5-7 | No | 中 |
| Hypercube | $\log_2 N$ | $\frac{N}{2}\log_2 N$ | $\frac{N}{2}b$ | $\log_2 N$ | Yes | 中-高 |
| HyperX | $\sum(S_i-1)$ | $N_{sw}\sum\frac{S_i-1}{2}$ | 可配置 | $L$ | Yes | 中 |
| SlimFly | $O(\sqrt{N})$ | $\frac{N}{2}O(\sqrt{N})$ | $\sim\frac{N}{2}b$ | 2 | Yes | 中 (Clos 的 1/2) |
| PolarFly | $q+1$ | $\frac{N(q+1)}{2}$ | $\sim\frac{N}{2}b$ | 2 | Yes | 中 (同 SlimFly) |
| Jellyfish | $d$ (固定) | $\frac{Nd}{2}$ | $\sim\frac{dN}{4}b$ | $O(\log N)$ | No | 同 Fat-tree |
| Xpander | $d$ (固定) | $\frac{Nd}{2}$ | $\sim 0.9 \cdot \frac{dN}{4}b$ | $O(\log N)$ | No | 同 Jellyfish |
| BCube ($k$) | $k+1$ | 递归 | $\frac{n^{k+1}}{2}b$ | $k+1$ | No | 低 (服务器中心) |
| OCS | 动态 | 动态 | 动态重配 | 取决于底层 | — | 中-高 |
@tbl-topo-metrics 各拓扑核心指标
关键观察:
- 割集最大:Fat-tree / Hypercube / SlimFly 均达上限 $\frac{N}{2}b$;Full Mesh 的 $(\frac{N}{2})^2 b$ 二次增长但线缆同步增长,不可扩展
- 直径最小:Full Mesh = 1 (不可扩展);SlimFly 恒为 2[1]
- 成本最低:Torus ($O(N)$ 链路),但割集带宽仅 Fat-tree 的 20-60%
割集带宽随规模 ($N$) 的变化 (@tbl-topo-scale):
| $N$ | Full Mesh / Fat-tree | 3D Torus | Torus/FT 比 | Dragonfly+ |
|---|---|---|---|---|
| 64 | $32b$ | $32b$ | 100% | ~$22b$ |
| 256 | $128b$ | $80b$ | 63% | ~$90b$ |
| 1,024 | $512b$ | $204b$ | 40% | ~$360b$ |
| 4,096 | $2048b$ | $512b$ | 25% | ~$1,440b$ |
| 8,960 | $4480b$ | $920b$ | 21% | ~$3,130b$ |
@tbl-topo-scale 割集带宽随规模变化
Fat-tree 始终保持全割集,代价是链路数 $O(N \log N)$ vs Torus $O(N)$。
拓扑评估的四维框架
通信效率 (割集 / 直径 / 拥塞 / 路由) + 成本 (交换机 / 线缆 / 功耗) + 可扩展性 (规模 / 增量 / 故障容忍) + 运维复杂度 (布线 / 路由配置 / 故障定位)。
关键指标权重:
- 割集带宽 (BB) 是第一优先级。AllReduce 理论带宽下界 $\frac{2(N-1)}{N} \cdot \frac{M}{\beta}$[2],割集不足时被截断到 $BB_{actual}$,与节点数无关
- 直径 影响延迟敏感操作 (PP P2P、小消息 AllReduce)。但 LLM 训练大消息 AllReduce (>100 MB) 受带宽限制,直径权重低于割集
- 拥塞特性 在 AllToAll (MoE) 场景下关键。Torus 上 AllToAll 拥塞比 (最忙链路负载/平均) 可达 $O(\sqrt{N})$;Fat-tree 通过 ECMP 控制在 $O(\log N)$
- 成本:相同割集下 Fat-tree 线缆成本是 Torus 的 3-5×。400G IB 交换机 ~$940-1170/port,400G 以太网 ~$625-860/port,400G AOC (50m) ~$300-600/port-pair (2024 行业报价)
大模型并行策略的拓扑敏感点
| 并行策略 | 通信模式 | 拓扑敏感点 |
|---|---|---|
| TP (张量并行) | AllReduce,每层都触发 | 节点内拓扑 — 高割集 + 低直径 |
| PP (流水线并行) | P2P,仅相邻阶段 | 路径带宽 — 与线性拓扑天然匹配 |
| EP (专家并行) | AllToAll,大消息非均匀 | 全局带宽 — 对割集要求最高 |
| DP (数据并行) | AllReduce,大消息 | 全局割集 — 带宽瓶颈,延迟不敏感 |
@tbl-topo-parallel 并行策略的拓扑敏感点
MoE (如 DeepSeek-V3) 的 AllToAll 对拓扑要求最苛刻:Expert 节点间需要大规模 many-to-many 数据交换,易在非全带宽拓扑形成拥塞[3]。
拓扑与并行策略适配矩阵 (@tbl-topo-fit):
| 拓扑 | TP | PP | EP (MoE) | DP | 推荐主用 |
|---|---|---|---|---|---|
| Full Mesh (≤72) | 极高 | 中 | 中 | N/A (仅节点内) | TP 为主 |
| 3D Torus | 中-高 | 高 | 低 | 中 | PP + DP |
| Fat-tree | 高 (内) + 中 (跨节点) | 中 | 高 | 高 | 全策略 |
| Dragonfly+ | 中 | 中 | 中 | 中-高 | DP + EP |
| Hypercube | 高 | 中 | 中-高 | 中-高 | TP + EP |
@tbl-topo-fit 拓扑与并行策略适配
Fat-tree 因全割集成为 MoE 首选;Torus 的 AllToAll 拥塞需通过 Expert 放置策略缓解[4]。
子文档索引 (Index)
- 2.2 Ring — Ring 拓扑
- 2.3 Fat-tree — Fat-tree / Clos 网络
- 2.4 Dragonfly — Dragonfly 拓扑
- 2.5 Dragonfly+ — Dragonfly+ 改进版
- 2.6 Torus — 2D / 3D Torus
- 2.7 Hypercube — 超立方体 + 集合通信算法基础
- 2.8 HyperX / Flattened Butterfly — HyperX / Flattened Butterfly
- 2.9 SlimFly — SlimFly 低直径 (MMS 图)
- 2.10 PolarFly — PolarFly 低直径 (极性图,SC 2022)
- 2.11 Jellyfish — Jellyfish 随机正则图
- 2.12 Xpander — Xpander 结构化 expander
- 2.13 ZCube — ZCube (ATOP 自动搜索,SIGCOMM 2025)
- 2.14 BCube / DCell — BCube / DCell 服务器中心
- 2.15 光交换(OCS) — 光交换与可重构 (OCS / RotorNet / Opera)
- 2.16 NVL72 — NVL72 全连接域
- 2.17 厂商集群拓扑案例 — 各厂商集群拓扑案例
- 2.18 拓扑横向对比 — 通信 pattern / 规模 / 成本 / 路由 / 故障容忍横向对比
- 2.19 Rail-Optimized Fat-tree — Rail-Optimized Fat-tree (ROFT) 独立深度篇:布线 / 流量工程 / 多层扩展 / 仿真建模
参考资料
- Besta M. and Hoefler T., Slim Fly: A Cost Effective Low-Diameter Network Topology, SC 2014. https://doi.org/10.1109/SC.2014.34
- Thakur R. et al., Optimization of Collective Communication Operations in MPICH, IJHPCA 2005. https://doi.org/10.1109/TPDS.2005.90
- Fedus W. et al., Switch Transformers. https://arxiv.org/abs/2101.03961
- Jouppi N. et al., TPU v4: An Optically Reconfigurable Supercomputer for ML, ISCA 2023. https://arxiv.org/abs/2304.01433