总览
本章节范围:给定硬件约束 (GPU 数量 / 交换机端口数 / NIC 端口配置) 下,自动搜索在多个目标 (性能 / 成本 / 容错 / 集合通信效率) 上 Pareto-optimal 的网络拓扑。 目标读者:做数据中心 / HPC 拓扑设计、多目标优化算法选型、集合通信调度评估的工程师。
范围与边界
- 包含:5 种拓扑寻优范式 (数学构造 / 枚举 / 黑盒优化 / 联合优化 / 神经搜索);ATOP (NSGA-II + 11 类超参数) 与 TopoOpt (alternating optimization + OCS) 两条主流路线;NSGA-II / MOEA/D / MOPSO / MOBO / NSGA-III 算法对比;拓扑参数化编码 (邻接矩阵 / 模板 / DSL / 群论约束);评估器分层 (analytical / flow-level / packet-level);工具栈 (pymoo / Astra-Sim / SimAI / htsim / ForestColl)。
- 不包含:具体拓扑结构本身 (见 02-网络拓扑, ZCube 详细结构见 2.13 ZCube);路由算法机制 (见 03-路由算法);通信性能模型公式 (见 06-通信性能建模)。
名词定义
| 名词 | 定义 |
|---|---|
| 拓扑寻优 (Topology Search / Optimization) | 给定硬件约束下自动搜索最优网络拓扑的方法学,解决"怎么搜"; "搜出来是什么"由具体拓扑章节 (02-网络拓扑) 覆盖 |
| 范式 (Paradigm) | 拓扑寻优方法学的风格分类,按"约束严格程度 × 搜索自动化程度"划分为 5 类 |
| 多目标优化 (MOO) | 同时优化多个相互冲突目标 (性能 vs 成本 vs 容错),输出 Pareto 前沿而非单点最优 |
| Pareto-optimal 集合 / Pareto 前沿 | 解空间中"不被任何其他解支配"的集合;其在目标空间的投影称为 Pareto 前沿 |
| NSGA-II | Non-dominated Sorting Genetic Algorithm II,多目标进化算法事实标准 (Deb et al., 2002) |
| 超参数 (Hyperparameter) | 拓扑寻优中待搜索的拓扑参数 (如 ATOP 的 11 类),区别于机器学习中"训练超参数"的概念 |
| 2-stage 评估器 funnel | 拓扑评估的两段式调度:Stage 1 用 flow-level / 解析模型对 $10^4$ 候选粗筛,Stage 2 用端到端仿真器对 Pareto 集合精筛 |
| ForestColl | NSDI 2024 论文,把集合通信下界建模为 edge-disjoint spanning forest 分解问题,在 ATOP 中作为"理论最优集合通信" oracle |
| OCS (Optical Circuit Switch) | 光路交换机,通过重配光纤连接动态改变网络拓扑,TopoOpt 路线的硬件前提 |
| APL_fail | Average Path Length under single-switch failure,单交换机故障下任意 GPU 对的平均最短路径长度,ATOP 的核心容错指标 |
| ZCube | ATOP 通过 NSGA-II 自动搜索发现的具体拓扑实例 (搜索结果而非搜索方法),end-layer 2n / middle-layer 3n 端口非对称设计 |
| TopoOpt | NSDI 2023 拓扑寻优工作,走"群论 + alternating optimization + OCS"路线 |
@tbl-toposearch-overview-terms 第 9 章共享名词表
为什么需要拓扑寻优
核心问题:手工设计拓扑有哪些根本局限?为什么 LLM 训练规模会推动自动化?
手工设计的成本:过去三十年的拓扑研究几乎全部是数学家 + 工程师人工设计 + 数学证明的产物 — Fat-tree (Leiserson 1985, Al-Fares SIGCOMM 2008[1]) / BCube / DCell (微软亚研 2008-2009) / Dragonfly (Cray ISCA 2008[2]) / SlimFly (ETH SC 2014[3]) / PolarFly (PNNL SC 2022[4]) 等。每一个拓扑从概念到论文需要 1-3 年。
这种"灵感驱动"方式有三个根本问题:
- 样本稀疏:人类总共发明了不超过 30 种值得部署的拓扑族,覆盖的设计空间远小于理论上可能的图结构数
- 目标偏好:人类研究者偏好对称性、美学、简洁数学描述 (如 SlimFly 用 MMS 图、PolarFly 用射影平面),可能错过非对称但更优的设计
- workload 中立:人工拓扑通常 workload-agnostic,但 LLM 训练有非常特殊的混合流量模式 (TP AllReduce + EP AllToAll + DP AllReduce)
LLM 训练规模推动自动化:万卡集群的网络硬件投资规模可观[5]。在这个量级,自动搜索能节省 30% 的网络成本就意味着可观的硬件投资节省。ATOP 论文 (SIGCOMM 2025[6]) 给出的实例:ZCube 相对 ROFT 节省 26%–46% 网络硬件成本。
拓扑寻优有哪 5 种范式
核心问题:不同自动化程度下方法学怎么划分?
拓扑设计方法学按约束严格程度 + 搜索自动化程度分为 5 个 paradigm。
Paradigm 1:数学构造 + 人工证明
- 代表:SlimFly (MMS 图) / PolarFly (射影平面) / Cayley graph 拓扑
- 方法:给定数学约束 (如直径 = 2 + 接近 Moore 界),用图论工具构造 (极性图 / 有限域上的二次剩余)
- 优点:可证明的最优性 (在某个数学度量下)
- 缺点:搜索空间是数学家的"灵感",无法机器化;参数选择稀疏 (如 SlimFly 只能用 $q \equiv 1 \pmod 4$ 的素数)
Paradigm 2:枚举 + 解析评估
- 代表:早期 NoC 拓扑研究 / Dragonfly 参数选择 / 当前的拓扑生成器
- 方法:列已知拓扑族 (fat-tree / dragonfly / torus) 的参数网格,每点用解析公式 (直径 / bisection / cost) 打分
- 优点:实现简单,结果可解释
- 缺点:只能搜规则族,发现不了新结构;解析公式忽略动态因素 (拥塞 / 调度)
Paradigm 3:黑盒优化 (ATOP 路线,当前主流)
- 代表:ATOP (Tsinghua SIGCOMM 2025)
- 方法:把拓扑参数化为可搜索超参 (ATOP 用 11 类,覆盖分层 + 多维结构),用 NSGA-II 多目标进化算法在超参空间搜索,评估器用流级仿真粗筛 + 端到端仿真精筛
- 优点:能在工程可承受时间内搜索 $10^5$ 候选;能发现非对称设计 (如 ZCube 的 end-layer 2n / middle-layer 3n 端口非对称)
- 缺点:搜索空间受参数化模板约束 (不能搜出 Jellyfish 那种 random regular graph);评估器精度上限决定搜索结果质量
Paradigm 4:联合优化 (TopoOpt 路线)
- 代表:TopoOpt (MIT / Meta NSDI 2023[7])
- 方法:拓扑 + 路由 + 并行策略同时作为搜索变量,用 alternating optimization + 群论启发算法 (利用图自同构对称性)
- 优点:联合优化能找到拓扑-算法协同的最优点
- 缺点:需要 OCS (光电路交换) 支持拓扑可重配,纯电交换 DCN 不适用;规模受限 (论文最大 256 GPU testbed)
Paradigm 5:神经搜索 (前沿)
- 代表:受 NAS (Neural Architecture Search) 启发的若干学术尝试
- 方法:用 GNN 编码拓扑特征 + RL agent 决策构造步骤;或用 surrogate neural model 加速评估
- 优点:可学习的 prior,灵活性高
- 缺点:训练成本高;可解释性差;目前没有生产部署案例
5 种范式横向对比
| 维度 | P1 数学构造 | P2 枚举 + 解析 | P3 ATOP 路线 | P4 TopoOpt 路线 | P5 神经搜索 |
|---|---|---|---|---|---|
| 搜索空间 | 数学家的灵感 | 已知族参数网格 | 参数化模板 (11 类超参) | 任意 direct-connect 图 + 群论约束 | 任意图 (GNN 表征) |
| 优化算法 | 数学证明 | 暴力枚举 | NSGA-II | Alternating optimization | RL / NAS |
| 评估器 | 解析公式 | 解析公式 | 2-stage (flow-level + 端到端) | testbed 实测 + 仿真 | NN surrogate |
| 单候选评估时间 | 0 | < 1 ms | 秒级 (flow) + 分钟级 (端到端) | 分钟到小时 | 训练后 ms 级 |
| 最大已部署规模 | 论文级 | 项目级 (千-万 GPU) | 16k GPU 仿真 + 16 GPU testbed | 256 GPU testbed | — |
| 商业部署案例 | 多 (HPC / 数据中心) | 多 (业界默认) | 媒体报道智谱有部署 (论文未直接提及) | 无 | 无 |
| 工程门槛 | 极高 (要数学家) | 低 | 中 (要仿真器 + 优化算法) | 高 (要 OCS 硬件) | 极高 (要 NN 训练) |
| 可解释性 | 高 | 高 | 中 | 中 | 低 |
@tbl-toposearch-overview-paradigm-compare 5 个拓扑寻优范式横向对比
选哪个范式由哪几个问题决定
核心问题:项目要做拓扑寻优,怎么选范式?
如果在项目里要做拓扑寻优,选哪个范式取决于三个问题:
-
硬件是否可重配?
- 可重配 (OCS) → Paradigm 4 (TopoOpt) 可考虑
- 不可重配 (普通电交换) → Paradigm 3 (ATOP) 是主选
-
目标拓扑规模?
- < 1k GPU: Paradigm 2 (枚举) 可能够用
- 1k–16k GPU: Paradigm 3 (ATOP) 已有生产验证
-
16k GPU:所有范式都缺乏验证,需要谨慎扩展
-
接受多少工程量?
- < 1 人月:用 Paradigm 2,写参数化生成器 + 现有评估器
- 2–6 人月:用 Paradigm 3,复现 ATOP 的 11 类超参数 + NSGA-II
-
6 人月:考虑 Paradigm 4 (需要 OCS 投入) 或 P5 (前沿研究)
评估指标体系
核心问题:拓扑寻优产出的候选要从哪些维度评?
拓扑寻优产出的候选需要从多个维度评估 (详见 8.6 评估器与算法假设)。
性能维度 (业务驱动):
- 单 iter 训练时间 (受 AllReduce / AllToAll 影响)
- TTFT / TPOT P99 (推理 SLA)
- ForestColl 理论下界
成本维度 (采购驱动):
- 网络硬件总成本 (交换机 + 光模块 + NIC + 线缆)
- 3 年 TCO (含能耗)
容错维度 (运维驱动):
- APL_fail
- 单 switch 故障下吞吐降幅
- k-edge connectivity
集合通信效率 (算法驱动):
- ForestColl all-gather 理论下界
- NCCL Ring / Tree 实测带宽
- AllToAll 拥塞热点严重度
ATOP 论文用了 11 类目标 (9 个 JCT 类 + APL_fail + 成本),项目 Phase 1 推荐 3 个 P0 目标 (iter time / 网络成本 / APL_fail),平衡评估器精度上限与多目标拥挤距离衰减问题。
子文档索引
- 8.2 ATOP — ATOP 详解:11 类超参数 + NSGA-II + 2-stage 评估器 + 实验细节;ZCube 在 ATOP 中的位置。
- 8.3 TopoOpt — TopoOpt 详解:拓扑 + 并行策略联合优化 + 群论启发 (TotientPerms) + OCS 集成。
- 8.4 多目标搜索算法对比 — NSGA-II / MOEA/D / MOPSO / MOBO / NSGA-III 对比 + 开源库 + 算法选择决策树。
- 8.5 拓扑参数化编码方法 — ATOP 11 类超参数详解 + 邻接矩阵 / DSL (Condor) / 图同构约束等其他参数化方法。
- 8.6 评估器与算法假设 — 解析 / flow-level / packet-level 评估器三层级权衡 + ForestColl / SCCL / TACCL / TE-CCL 集合通信调度合成。
- 8.7 工具链与开源资产 — pymoo / DEAP / TopoOpt code / Astra-Sim / SimAI / htsim 等开源资产清单与 License 兼容性。
阅读建议
- 想了解全貌:读本文 + 8.2 ATOP (30 分钟)
- 想动手实现:本文 + 02 + 8.5 拓扑参数化编码方法 + 8.7 工具链与开源资产 (2 小时)
- 想做算法对比研究:本文 + 02 + 03 + 8.4 多目标搜索算法对比 + 8.6 评估器与算法假设 (半天)
参考资料
- Al-Fares et al., A Scalable, Commodity Data Center Network Architecture, SIGCOMM 2008. https://doi.org/10.1145/1402958.1402967
- Kim et al., Dragonfly, ISCA 2008. https://doi.org/10.1109/ISCA.2008.19
- Besta & Hoefler, SlimFly, SC 2014. https://doi.org/10.1109/SC.2014.34
- Lakhotia et al., PolarFly, SC 2022. https://doi.org/10.1109/SC41404.2022.00017
- Alibaba HPN, SIGCOMM 2024. https://doi.org/10.1145/3651890.3672265
- Yan et al., From ATOP to ZCube, SIGCOMM 2025. https://dl.acm.org/doi/10.1145/3718958.3750503
- Wang et al., TopoOpt, NSDI 2023. https://www.usenix.org/conference/nsdi23/presentation/wang-weiyang