跳到主要内容

总览

本章节范围:给定硬件约束 (GPU 数量 / 交换机端口数 / NIC 端口配置) 下,自动搜索在多个目标 (性能 / 成本 / 容错 / 集合通信效率) 上 Pareto-optimal 的网络拓扑。 目标读者:做数据中心 / HPC 拓扑设计、多目标优化算法选型、集合通信调度评估的工程师。

范围与边界

  • 包含:5 种拓扑寻优范式 (数学构造 / 枚举 / 黑盒优化 / 联合优化 / 神经搜索);ATOP (NSGA-II + 11 类超参数) 与 TopoOpt (alternating optimization + OCS) 两条主流路线;NSGA-II / MOEA/D / MOPSO / MOBO / NSGA-III 算法对比;拓扑参数化编码 (邻接矩阵 / 模板 / DSL / 群论约束);评估器分层 (analytical / flow-level / packet-level);工具栈 (pymoo / Astra-Sim / SimAI / htsim / ForestColl)。
  • 不包含:具体拓扑结构本身 (见 02-网络拓扑, ZCube 详细结构见 2.13 ZCube);路由算法机制 (见 03-路由算法);通信性能模型公式 (见 06-通信性能建模)。

名词定义

名词定义
拓扑寻优 (Topology Search / Optimization)给定硬件约束下自动搜索最优网络拓扑的方法学,解决"怎么搜"; "搜出来是什么"由具体拓扑章节 (02-网络拓扑) 覆盖
范式 (Paradigm)拓扑寻优方法学的风格分类,按"约束严格程度 × 搜索自动化程度"划分为 5 类
多目标优化 (MOO)同时优化多个相互冲突目标 (性能 vs 成本 vs 容错),输出 Pareto 前沿而非单点最优
Pareto-optimal 集合 / Pareto 前沿解空间中"不被任何其他解支配"的集合;其在目标空间的投影称为 Pareto 前沿
NSGA-IINon-dominated Sorting Genetic Algorithm II,多目标进化算法事实标准 (Deb et al., 2002)
超参数 (Hyperparameter)拓扑寻优中待搜索的拓扑参数 (如 ATOP 的 11 类),区别于机器学习中"训练超参数"的概念
2-stage 评估器 funnel拓扑评估的两段式调度:Stage 1 用 flow-level / 解析模型对 $10^4$ 候选粗筛,Stage 2 用端到端仿真器对 Pareto 集合精筛
ForestCollNSDI 2024 论文,把集合通信下界建模为 edge-disjoint spanning forest 分解问题,在 ATOP 中作为"理论最优集合通信" oracle
OCS (Optical Circuit Switch)光路交换机,通过重配光纤连接动态改变网络拓扑,TopoOpt 路线的硬件前提
APL_failAverage Path Length under single-switch failure,单交换机故障下任意 GPU 对的平均最短路径长度,ATOP 的核心容错指标
ZCubeATOP 通过 NSGA-II 自动搜索发现的具体拓扑实例 (搜索结果而非搜索方法),end-layer 2n / middle-layer 3n 端口非对称设计
TopoOptNSDI 2023 拓扑寻优工作,走"群论 + alternating optimization + OCS"路线

@tbl-toposearch-overview-terms 第 9 章共享名词表

为什么需要拓扑寻优

核心问题:手工设计拓扑有哪些根本局限?为什么 LLM 训练规模会推动自动化?

手工设计的成本:过去三十年的拓扑研究几乎全部是数学家 + 工程师人工设计 + 数学证明的产物 — Fat-tree (Leiserson 1985, Al-Fares SIGCOMM 2008[1]) / BCube / DCell (微软亚研 2008-2009) / Dragonfly (Cray ISCA 2008[2]) / SlimFly (ETH SC 2014[3]) / PolarFly (PNNL SC 2022[4]) 等。每一个拓扑从概念到论文需要 1-3 年。

这种"灵感驱动"方式有三个根本问题:

  1. 样本稀疏:人类总共发明了不超过 30 种值得部署的拓扑族,覆盖的设计空间远小于理论上可能的图结构数
  2. 目标偏好:人类研究者偏好对称性、美学、简洁数学描述 (如 SlimFly 用 MMS 图、PolarFly 用射影平面),可能错过非对称但更优的设计
  3. workload 中立:人工拓扑通常 workload-agnostic,但 LLM 训练有非常特殊的混合流量模式 (TP AllReduce + EP AllToAll + DP AllReduce)

LLM 训练规模推动自动化:万卡集群的网络硬件投资规模可观[5]。在这个量级,自动搜索能节省 30% 的网络成本就意味着可观的硬件投资节省。ATOP 论文 (SIGCOMM 2025[6]) 给出的实例:ZCube 相对 ROFT 节省 26%–46% 网络硬件成本。

拓扑寻优有哪 5 种范式

核心问题:不同自动化程度下方法学怎么划分?

拓扑设计方法学按约束严格程度 + 搜索自动化程度分为 5 个 paradigm。

Paradigm 1:数学构造 + 人工证明

  • 代表:SlimFly (MMS 图) / PolarFly (射影平面) / Cayley graph 拓扑
  • 方法:给定数学约束 (如直径 = 2 + 接近 Moore 界),用图论工具构造 (极性图 / 有限域上的二次剩余)
  • 优点:可证明的最优性 (在某个数学度量下)
  • 缺点:搜索空间是数学家的"灵感",无法机器化;参数选择稀疏 (如 SlimFly 只能用 $q \equiv 1 \pmod 4$ 的素数)

Paradigm 2:枚举 + 解析评估

  • 代表:早期 NoC 拓扑研究 / Dragonfly 参数选择 / 当前的拓扑生成器
  • 方法:列已知拓扑族 (fat-tree / dragonfly / torus) 的参数网格,每点用解析公式 (直径 / bisection / cost) 打分
  • 优点:实现简单,结果可解释
  • 缺点:只能搜规则族,发现不了新结构;解析公式忽略动态因素 (拥塞 / 调度)

Paradigm 3:黑盒优化 (ATOP 路线,当前主流)

  • 代表ATOP (Tsinghua SIGCOMM 2025)
  • 方法:把拓扑参数化为可搜索超参 (ATOP 用 11 类,覆盖分层 + 多维结构),用 NSGA-II 多目标进化算法在超参空间搜索,评估器用流级仿真粗筛 + 端到端仿真精筛
  • 优点:能在工程可承受时间内搜索 $10^5$ 候选;能发现非对称设计 (如 ZCube 的 end-layer 2n / middle-layer 3n 端口非对称)
  • 缺点:搜索空间受参数化模板约束 (不能搜出 Jellyfish 那种 random regular graph);评估器精度上限决定搜索结果质量

Paradigm 4:联合优化 (TopoOpt 路线)

  • 代表TopoOpt (MIT / Meta NSDI 2023[7])
  • 方法:拓扑 + 路由 + 并行策略同时作为搜索变量,用 alternating optimization + 群论启发算法 (利用图自同构对称性)
  • 优点:联合优化能找到拓扑-算法协同的最优点
  • 缺点:需要 OCS (光电路交换) 支持拓扑可重配,纯电交换 DCN 不适用;规模受限 (论文最大 256 GPU testbed)

Paradigm 5:神经搜索 (前沿)

  • 代表:受 NAS (Neural Architecture Search) 启发的若干学术尝试
  • 方法:用 GNN 编码拓扑特征 + RL agent 决策构造步骤;或用 surrogate neural model 加速评估
  • 优点:可学习的 prior,灵活性高
  • 缺点:训练成本高;可解释性差;目前没有生产部署案例

5 种范式横向对比

维度P1 数学构造P2 枚举 + 解析P3 ATOP 路线P4 TopoOpt 路线P5 神经搜索
搜索空间数学家的灵感已知族参数网格参数化模板 (11 类超参)任意 direct-connect 图 + 群论约束任意图 (GNN 表征)
优化算法数学证明暴力枚举NSGA-IIAlternating optimizationRL / NAS
评估器解析公式解析公式2-stage (flow-level + 端到端)testbed 实测 + 仿真NN surrogate
单候选评估时间0< 1 ms秒级 (flow) + 分钟级 (端到端)分钟到小时训练后 ms 级
最大已部署规模论文级项目级 (千-万 GPU)16k GPU 仿真 + 16 GPU testbed256 GPU testbed
商业部署案例多 (HPC / 数据中心)多 (业界默认)媒体报道智谱有部署 (论文未直接提及)
工程门槛极高 (要数学家)中 (要仿真器 + 优化算法)高 (要 OCS 硬件)极高 (要 NN 训练)
可解释性

@tbl-toposearch-overview-paradigm-compare 5 个拓扑寻优范式横向对比

选哪个范式由哪几个问题决定

核心问题:项目要做拓扑寻优,怎么选范式?

如果在项目里要做拓扑寻优,选哪个范式取决于三个问题:

  1. 硬件是否可重配

    • 可重配 (OCS) → Paradigm 4 (TopoOpt) 可考虑
    • 不可重配 (普通电交换) → Paradigm 3 (ATOP) 是主选
  2. 目标拓扑规模

    • < 1k GPU: Paradigm 2 (枚举) 可能够用
    • 1k–16k GPU: Paradigm 3 (ATOP) 已有生产验证
    • 16k GPU:所有范式都缺乏验证,需要谨慎扩展

  3. 接受多少工程量

    • < 1 人月:用 Paradigm 2,写参数化生成器 + 现有评估器
    • 2–6 人月:用 Paradigm 3,复现 ATOP 的 11 类超参数 + NSGA-II
    • 6 人月:考虑 Paradigm 4 (需要 OCS 投入) 或 P5 (前沿研究)

评估指标体系

核心问题:拓扑寻优产出的候选要从哪些维度评?

拓扑寻优产出的候选需要从多个维度评估 (详见 8.6 评估器与算法假设)。

性能维度 (业务驱动):

  • 单 iter 训练时间 (受 AllReduce / AllToAll 影响)
  • TTFT / TPOT P99 (推理 SLA)
  • ForestColl 理论下界

成本维度 (采购驱动):

  • 网络硬件总成本 (交换机 + 光模块 + NIC + 线缆)
  • 3 年 TCO (含能耗)

容错维度 (运维驱动):

  • APL_fail
  • 单 switch 故障下吞吐降幅
  • k-edge connectivity

集合通信效率 (算法驱动):

  • ForestColl all-gather 理论下界
  • NCCL Ring / Tree 实测带宽
  • AllToAll 拥塞热点严重度

ATOP 论文用了 11 类目标 (9 个 JCT 类 + APL_fail + 成本),项目 Phase 1 推荐 3 个 P0 目标 (iter time / 网络成本 / APL_fail),平衡评估器精度上限与多目标拥挤距离衰减问题。

子文档索引

  • 8.2 ATOP — ATOP 详解:11 类超参数 + NSGA-II + 2-stage 评估器 + 实验细节;ZCube 在 ATOP 中的位置。
  • 8.3 TopoOpt — TopoOpt 详解:拓扑 + 并行策略联合优化 + 群论启发 (TotientPerms) + OCS 集成。
  • 8.4 多目标搜索算法对比 — NSGA-II / MOEA/D / MOPSO / MOBO / NSGA-III 对比 + 开源库 + 算法选择决策树。
  • 8.5 拓扑参数化编码方法 — ATOP 11 类超参数详解 + 邻接矩阵 / DSL (Condor) / 图同构约束等其他参数化方法。
  • 8.6 评估器与算法假设 — 解析 / flow-level / packet-level 评估器三层级权衡 + ForestColl / SCCL / TACCL / TE-CCL 集合通信调度合成。
  • 8.7 工具链与开源资产 — pymoo / DEAP / TopoOpt code / Astra-Sim / SimAI / htsim 等开源资产清单与 License 兼容性。

阅读建议

参考资料

  1. Al-Fares et al., A Scalable, Commodity Data Center Network Architecture, SIGCOMM 2008. https://doi.org/10.1145/1402958.1402967
  2. Kim et al., Dragonfly, ISCA 2008. https://doi.org/10.1109/ISCA.2008.19
  3. Besta & Hoefler, SlimFly, SC 2014. https://doi.org/10.1109/SC.2014.34
  4. Lakhotia et al., PolarFly, SC 2022. https://doi.org/10.1109/SC41404.2022.00017
  5. Alibaba HPN, SIGCOMM 2024. https://doi.org/10.1145/3651890.3672265
  6. Yan et al., From ATOP to ZCube, SIGCOMM 2025. https://dl.acm.org/doi/10.1145/3718958.3750503
  7. Wang et al., TopoOpt, NSDI 2023. https://www.usenix.org/conference/nsdi23/presentation/wang-weiyang