总览

本章节范围：大模型训练/推理集群的互联拓扑设计 — 网络图结构、割集带宽、路由特性、拥塞热点、成本模型，以及各厂商的拓扑选型与实际部署方案。 目标读者：需要在 LLM 集群选型、容量规划、并行策略对齐中理解拓扑约束的工程师。

范围与边界 (Scope)

包含：各拓扑的图结构、关键指标（割集 / 直径 / 度数 / 成本）、与并行策略的适配性、典型部署案例
不包含：单链路协议 (→ 01-硬件互联)、路由算法实现 (→ 03-路由算法)、集合通信原语 (→ 04-集合通信)、性能建模公式 (→ 06-通信性能建模)

名词定义

本章节所有概念型文档默认这些名词已定义，见 @tbl-topo-glossary。

名词	定义
拓扑 (Topology)	多节点通过链路形成的网络图结构，决定数据包的可选路径集合
割集带宽 (Bisection Bandwidth)	将节点集合对半划分时横跨两侧的链路总带宽之和；集合通信性能的首要约束
直径 (Diameter)	网络中任意两节点间最短路径长度的最大值，反映最坏情况下的通信跳数
度数 (Degree)	单节点直接邻居数量 = 物理链路数
全割集带宽 (Full Bisection)	$\frac{N}{2} \cdot b$ ($b$ 为单节点上行带宽)，任意半数节点通信不受拓扑阻塞
过订阅比 (Oversubscription)	下行带宽 / 上行带宽，>1 即存在收敛比
Vertex-Transitive	任意节点局部结构对称，所有节点通信性能一致，无热点节点
拥塞热点	多条流量汇聚到同一链路，实际可用带宽远低于物理线速
OCS (Optical Circuit Switch)	光路交换机，通过重配光纤连接动态改变拓扑

@tbl-topo-glossary 共享名词表

拓扑分类速查

6 大类：

全互联：Full Mesh / Complete Graph、NVSwitch 全互联域
规则图：Ring、2D Torus、3D Torus / Mesh、Hypercube
多级交换：Fat-tree / Clos、Dragonfly / Dragonfly+、HyperX / Flattened Butterfly、Rail-Optimized Fat-tree
代数构造低直径图：SlimFly （MMS 图）、PolarFly （极性图）
随机 / 结构化扩展图：Jellyfish （随机正则图）、Xpander （结构化 expander）
服务器中心：BCube、DCell
动态：OCS 光路交换（MEMS / Rotor / 硅光）

各拓扑核心指标 (@tbl-topo-metrics)

$b$ = 单链路带宽，$N$ = 节点数，$k$ = 交换机端口数。

拓扑	度数	链路数	割集带宽	直径	Vertex-Transitive	成本
Full Mesh	$N-1$	$\frac{N(N-1)}{2}$	$(\frac{N}{2})^2 b$	1	Yes	极高
Ring	2	$N$	$2b$	$\lfloor N/2 \rfloor$	Yes	最低
2D Torus	4	$2N$	$2\sqrt{N} \cdot b$	$\sqrt{N}$	Yes	低
3D Torus	6	$3N$	$2N^{2/3} \cdot b$	$\frac{3}{2}N^{1/3}$	Yes	中
Fat-tree (Clos)	$k$	$\frac{5}{4}N$	$\frac{N}{2}b$	6 （3 级固定）	No	高
Dragonfly	$h+a-1$	$\sim N$	$\sim 0.7 \cdot \frac{N}{2}b$	3	No	中
Dragonfly+	同 Dragonfly	$\sim N$	$> 0.7 \cdot \frac{N}{2}b$	5-7	No	中
Hypercube	$\log_2 N$	$\frac{N}{2}\log_2 N$	$\frac{N}{2}b$	$\log_2 N$	Yes	中-高
HyperX	$\sum(S_i-1)$	$N_{sw}\sum\frac{S_i-1}{2}$	可配置	$L$	Yes	中
SlimFly	$O(\sqrt{N})$	$\frac{N}{2}O(\sqrt{N})$	$\sim\frac{N}{2}b$	2	Yes	中（Clos 的 1/2）
PolarFly	$q+1$	$\frac{N(q+1)}{2}$	$\sim\frac{N}{2}b$	2	Yes	中（同 SlimFly）
Jellyfish	$d$ （固定）	$\frac{Nd}{2}$	$\sim\frac{dN}{4}b$	$O(\log N)$	No	同 Fat-tree
Xpander	$d$ （固定）	$\frac{Nd}{2}$	$\sim 0.9 \cdot \frac{dN}{4}b$	$O(\log N)$	No	同 Jellyfish
BCube ($k$)	$k+1$	递归	$\frac{n^{k+1}}{2}b$	$k+1$	No	低（服务器中心）
OCS	动态	动态	动态重配	取决于底层	—	中-高

@tbl-topo-metrics 各拓扑核心指标

关键观察：

割集最大：Fat-tree / Hypercube / SlimFly 均达上限 $\frac{N}{2}b$；Full Mesh 的 $(\frac{N}{2})^2 b$ 二次增长但线缆同步增长，不可扩展
直径最小：Full Mesh = 1 （不可扩展）；SlimFly 恒为 2[1]
成本最低：Torus ($O(N)$ 链路)，但割集带宽仅 Fat-tree 的 20-60%

割集带宽随规模 ($N$) 的变化 (@tbl-topo-scale):

$N$	Full Mesh / Fat-tree	3D Torus	Torus/FT 比	Dragonfly+
64	$32b$	$32b$	100%	~$22b$
256	$128b$	$80b$	63%	~$90b$
1,024	$512b$	$204b$	40%	~$360b$
4,096	$2048b$	$512b$	25%	~$1,440b$
8,960	$4480b$	$920b$	21%	~$3,130b$

@tbl-topo-scale 割集带宽随规模变化

Fat-tree 始终保持全割集，代价是链路数 $O(N \log N)$ vs Torus $O(N)$。

拓扑评估的四维框架

通信效率 （割集 / 直径 / 拥塞 / 路由） + 成本（交换机 / 线缆 / 功耗） + 可扩展性 （规模 / 增量 / 故障容忍） + 运维复杂度 （布线 / 路由配置 / 故障定位）。

关键指标权重：

割集带宽 (BB) 是第一优先级。AllReduce 理论带宽下界 $\frac{2(N-1)}{N} \cdot \frac{M}{\beta}$[2]，割集不足时被截断到 $BB_{actual}$，与节点数无关
直径影响延迟敏感操作（PP P2P、小消息 AllReduce）。但 LLM 训练大消息 AllReduce (>100 MB) 受带宽限制，直径权重低于割集
拥塞特性 在 AllToAll (MoE) 场景下关键。Torus 上 AllToAll 拥塞比（最忙链路负载/平均）可达 $O(\sqrt{N})$；Fat-tree 通过 ECMP 控制在 $O(\log N)$
成本：相同割集下 Fat-tree 线缆成本是 Torus 的 3-5×。400G IB 交换机 ~$940-1170/port，400G 以太网 ~$625-860/port，400G AOC (50m) ~$300-600/port-pair （2024 行业报价）

大模型并行策略的拓扑敏感点

并行策略	通信模式	拓扑敏感点
TP （张量并行）	AllReduce，每层都触发	节点内拓扑 — 高割集 + 低直径
PP （流水线并行）	P2P，仅相邻阶段	路径带宽 — 与线性拓扑天然匹配
EP （专家并行）	AllToAll，大消息非均匀	全局带宽 — 对割集要求最高
DP （数据并行）	AllReduce，大消息	全局割集 — 带宽瓶颈，延迟不敏感

@tbl-topo-parallel 并行策略的拓扑敏感点

MoE （如 DeepSeek-V3）的 AllToAll 对拓扑要求最苛刻：Expert 节点间需要大规模 many-to-many 数据交换，易在非全带宽拓扑形成拥塞[3]。

拓扑与并行策略适配矩阵 (@tbl-topo-fit):

拓扑	TP	PP	EP (MoE)	DP	推荐主用
Full Mesh (≤72)	极高	中	中	N/A （仅节点内）	TP 为主
3D Torus	中-高	高	低	中	PP + DP
Fat-tree	高（内） + 中（跨节点）	中	高	高	全策略
Dragonfly+	中	中	中	中-高	DP + EP
Hypercube	高	中	中-高	中-高	TP + EP

@tbl-topo-fit 拓扑与并行策略适配

Fat-tree 因全割集成为 MoE 首选；Torus 的 AllToAll 拥塞需通过 Expert 放置策略缓解[4]。

子文档索引 (Index)

2.2 Ring — Ring 拓扑
2.3 Fat-tree — Fat-tree / Clos 网络
2.4 Dragonfly — Dragonfly 拓扑
2.5 Dragonfly+ — Dragonfly+ 改进版
2.6 Torus — 2D / 3D Torus
2.7 Hypercube — 超立方体 + 集合通信算法基础
2.8 HyperX / Flattened Butterfly — HyperX / Flattened Butterfly
2.9 SlimFly — SlimFly 低直径（MMS 图）
2.10 PolarFly — PolarFly 低直径（极性图，SC 2022）
2.11 Jellyfish — Jellyfish 随机正则图
2.12 Xpander — Xpander 结构化 expander
2.13 ZCube — ZCube （ATOP 自动搜索，SIGCOMM 2025）
2.14 BCube / DCell — BCube / DCell 服务器中心
2.15 光交换（OCS） — 光交换与可重构 (OCS / RotorNet / Opera)
2.16 NVL72 — NVL72 全连接域
2.17 厂商集群拓扑案例 — 各厂商集群拓扑案例
2.18 拓扑横向对比 — 通信 pattern / 规模 / 成本 / 路由 / 故障容忍横向对比
2.19 Rail-Optimized Fat-tree — Rail-Optimized Fat-tree (ROFT) 独立深度篇：布线 / 流量工程 / 多层扩展 / 仿真建模

参考资料

Besta M. and Hoefler T., Slim Fly: A Cost Effective Low-Diameter Network Topology, SC 2014. https://doi.org/10.1109/SC.2014.34
Thakur R. et al., Optimization of Collective Communication Operations in MPICH, IJHPCA 2005. https://doi.org/10.1109/TPDS.2005.90
Fedus W. et al., Switch Transformers. https://arxiv.org/abs/2101.03961
Jouppi N. et al., TPU v4: An Optically Reconfigurable Supercomputer for ML, ISCA 2023. https://arxiv.org/abs/2304.01433

被引用于（10）

Tier6-Model 文档
向管理层 Leader 汇报 — 课题候选脑暴（互联通信机制聚焦版）brainstorm
大模型通信互联知识库
拓扑寻优总览interconnect / 拓扑寻优
总览interconnect / 硬件互联
集群可靠性总览interconnect / 集群可靠性
先进封装与片间互联 — 总览knowledge / 先进封装与片间互联
Interconnect 资源域knowledge / 推理性能建模
长上下文 — 总览knowledge / 长上下文
MoE EP alltoallv 拓扑与路由的性能评估：实验设计validation / EP拓扑路由评估

范围与边界 (Scope)​

名词定义​

拓扑分类速查​

各拓扑核心指标 (@tbl-topo-metrics)​

拓扑评估的四维框架​

大模型并行策略的拓扑敏感点​

子文档索引 (Index)​

参考资料​