总览

本章节范围：给定硬件约束（GPU 数量 / 交换机端口数 / NIC 端口配置）下，自动搜索在多个目标（性能 / 成本 / 容错 / 集合通信效率）上 Pareto-optimal 的网络拓扑。 目标读者：做数据中心 / HPC 拓扑设计、多目标优化算法选型、集合通信调度评估的工程师。

范围与边界

包含：5 种拓扑寻优范式（数学构造 / 枚举 / 黑盒优化 / 联合优化 / 神经搜索）；ATOP （NSGA-II + 11 类超参数）与 TopoOpt (alternating optimization + OCS) 两条主流路线；NSGA-II / MOEA/D / MOPSO / MOBO / NSGA-III 算法对比；拓扑参数化编码（邻接矩阵 / 模板 / DSL / 群论约束）；评估器分层 (analytical / flow-level / packet-level)；工具栈 (pymoo / Astra-Sim / SimAI / htsim / ForestColl)。
不包含：具体拓扑结构本身 (见 02-网络拓扑, ZCube 详细结构见 2.13 ZCube)；路由算法机制 (见 03-路由算法)；通信性能模型公式 (见 06-通信性能建模)。

名词定义

名词	定义
拓扑寻优 (Topology Search / Optimization)	给定硬件约束下自动搜索最优网络拓扑的方法学，解决"怎么搜"; "搜出来是什么"由具体拓扑章节 (02-网络拓扑) 覆盖
范式 (Paradigm)	拓扑寻优方法学的风格分类，按"约束严格程度 × 搜索自动化程度"划分为 5 类
多目标优化 (MOO)	同时优化多个相互冲突目标（性能 vs 成本 vs 容错），输出 Pareto 前沿而非单点最优
Pareto-optimal 集合 / Pareto 前沿	解空间中"不被任何其他解支配"的集合；其在目标空间的投影称为 Pareto 前沿
NSGA-II	Non-dominated Sorting Genetic Algorithm II，多目标进化算法事实标准 (Deb et al., 2002)
超参数 (Hyperparameter)	拓扑寻优中待搜索的拓扑参数（如 ATOP 的 11 类），区别于机器学习中"训练超参数"的概念
2-stage 评估器 funnel	拓扑评估的两段式调度：Stage 1 用 flow-level / 解析模型对 $10^4$ 候选粗筛，Stage 2 用端到端仿真器对 Pareto 集合精筛
ForestColl	NSDI 2024 论文，把集合通信下界建模为 edge-disjoint spanning forest 分解问题，在 ATOP 中作为"理论最优集合通信" oracle
OCS (Optical Circuit Switch)	光路交换机，通过重配光纤连接动态改变网络拓扑，TopoOpt 路线的硬件前提
APL_fail	Average Path Length under single-switch failure，单交换机故障下任意 GPU 对的平均最短路径长度，ATOP 的核心容错指标
ZCube	ATOP 通过 NSGA-II 自动搜索发现的具体拓扑实例（搜索结果而非搜索方法），end-layer 2n / middle-layer 3n 端口非对称设计
TopoOpt	NSDI 2023 拓扑寻优工作，走"群论 + alternating optimization + OCS"路线

@tbl-toposearch-overview-terms 第 9 章共享名词表

为什么需要拓扑寻优

核心问题：手工设计拓扑有哪些根本局限？为什么 LLM 训练规模会推动自动化？

手工设计的成本：过去三十年的拓扑研究几乎全部是数学家 + 工程师人工设计 + 数学证明的产物 — Fat-tree (Leiserson 1985, Al-Fares SIGCOMM 2008[1]) / BCube / DCell （微软亚研 2008-2009） / Dragonfly (Cray ISCA 2008[2]) / SlimFly (ETH SC 2014[3]) / PolarFly (PNNL SC 2022[4]) 等。每一个拓扑从概念到论文需要 1-3 年。

这种"灵感驱动"方式有三个根本问题：

样本稀疏：人类总共发明了不超过 30 种值得部署的拓扑族，覆盖的设计空间远小于理论上可能的图结构数
目标偏好：人类研究者偏好对称性、美学、简洁数学描述（如 SlimFly 用 MMS 图、PolarFly 用射影平面），可能错过非对称但更优的设计
workload 中立：人工拓扑通常 workload-agnostic，但 LLM 训练有非常特殊的混合流量模式 (TP AllReduce + EP AllToAll + DP AllReduce)

LLM 训练规模推动自动化：万卡集群的网络硬件投资规模可观[5]。在这个量级，自动搜索能节省 30% 的网络成本就意味着可观的硬件投资节省。ATOP 论文 (SIGCOMM 2025[6]) 给出的实例：ZCube 相对 ROFT 节省 26%–46% 网络硬件成本。

拓扑寻优有哪 5 种范式

核心问题：不同自动化程度下方法学怎么划分？

拓扑设计方法学按约束严格程度 + 搜索自动化程度分为 5 个 paradigm。

Paradigm 1：数学构造 + 人工证明

代表：SlimFly （MMS 图） / PolarFly （射影平面） / Cayley graph 拓扑
方法：给定数学约束（如直径 = 2 + 接近 Moore 界），用图论工具构造（极性图 / 有限域上的二次剩余）
优点：可证明的最优性（在某个数学度量下）
缺点：搜索空间是数学家的"灵感"，无法机器化；参数选择稀疏 (如 SlimFly 只能用 $q \equiv 1 \pmod 4$ 的素数)

Paradigm 2：枚举 + 解析评估

代表：早期 NoC 拓扑研究 / Dragonfly 参数选择 / 当前的拓扑生成器
方法：列已知拓扑族 (fat-tree / dragonfly / torus) 的参数网格，每点用解析公式（直径 / bisection / cost）打分
优点：实现简单，结果可解释
缺点：只能搜规则族，发现不了新结构；解析公式忽略动态因素（拥塞 / 调度）

Paradigm 3：黑盒优化（ATOP 路线，当前主流）

代表：ATOP (Tsinghua SIGCOMM 2025)
方法：把拓扑参数化为可搜索超参（ATOP 用 11 类，覆盖分层 + 多维结构），用 NSGA-II 多目标进化算法在超参空间搜索，评估器用流级仿真粗筛 + 端到端仿真精筛
优点：能在工程可承受时间内搜索 $10^5$ 候选；能发现非对称设计（如 ZCube 的 end-layer 2n / middle-layer 3n 端口非对称）
缺点：搜索空间受参数化模板约束（不能搜出 Jellyfish 那种 random regular graph）；评估器精度上限决定搜索结果质量

Paradigm 4：联合优化（TopoOpt 路线）

代表：TopoOpt (MIT / Meta NSDI 2023[7])
方法：拓扑 + 路由 + 并行策略同时作为搜索变量，用 alternating optimization + 群论启发算法（利用图自同构对称性）
优点：联合优化能找到拓扑-算法协同的最优点
缺点：需要 OCS （光电路交换） 支持拓扑可重配，纯电交换 DCN 不适用；规模受限（论文最大 256 GPU testbed）

Paradigm 5：神经搜索（前沿）

代表：受 NAS (Neural Architecture Search) 启发的若干学术尝试
方法：用 GNN 编码拓扑特征 + RL agent 决策构造步骤；或用 surrogate neural model 加速评估
优点：可学习的 prior，灵活性高
缺点：训练成本高；可解释性差；目前没有生产部署案例

5 种范式横向对比

维度	P1 数学构造	P2 枚举 + 解析	P3 ATOP 路线	P4 TopoOpt 路线	P5 神经搜索
搜索空间	数学家的灵感	已知族参数网格	参数化模板（11 类超参）	任意 direct-connect 图 + 群论约束	任意图（GNN 表征）
优化算法	数学证明	暴力枚举	NSGA-II	Alternating optimization	RL / NAS
评估器	解析公式	解析公式	2-stage （flow-level + 端到端）	testbed 实测 + 仿真	NN surrogate
单候选评估时间	0	< 1 ms	秒级 (flow) + 分钟级（端到端）	分钟到小时	训练后 ms 级
最大已部署规模	论文级	项目级（千-万 GPU）	16k GPU 仿真 + 16 GPU testbed	256 GPU testbed	—
商业部署案例	多（HPC / 数据中心）	多（业界默认）	媒体报道智谱有部署（论文未直接提及）	无	无
工程门槛	极高（要数学家）	低	中（要仿真器 + 优化算法）	高（要 OCS 硬件）	极高（要 NN 训练）
可解释性	高	高	中	中	低

@tbl-toposearch-overview-paradigm-compare 5 个拓扑寻优范式横向对比

选哪个范式由哪几个问题决定

核心问题：项目要做拓扑寻优，怎么选范式？

如果在项目里要做拓扑寻优，选哪个范式取决于三个问题：

硬件是否可重配？
- 可重配 (OCS) → Paradigm 4 (TopoOpt) 可考虑
- 不可重配（普通电交换） → Paradigm 3 (ATOP) 是主选
目标拓扑规模？
- < 1k GPU: Paradigm 2 （枚举）可能够用
- 1k–16k GPU: Paradigm 3 (ATOP) 已有生产验证
- 16k GPU：所有范式都缺乏验证，需要谨慎扩展
接受多少工程量？
- < 1 人月：用 Paradigm 2，写参数化生成器 + 现有评估器
- 2–6 人月：用 Paradigm 3，复现 ATOP 的 11 类超参数 + NSGA-II
- 6 人月：考虑 Paradigm 4 （需要 OCS 投入）或 P5 （前沿研究）

评估指标体系

核心问题：拓扑寻优产出的候选要从哪些维度评？

拓扑寻优产出的候选需要从多个维度评估 (详见 8.6 评估器与算法假设)。

性能维度 （业务驱动）：

单 iter 训练时间（受 AllReduce / AllToAll 影响）
TTFT / TPOT P99 （推理 SLA）
ForestColl 理论下界

成本维度 （采购驱动）：

网络硬件总成本（交换机 + 光模块 + NIC + 线缆）
3 年 TCO （含能耗）

容错维度 （运维驱动）：

APL_fail
单 switch 故障下吞吐降幅
k-edge connectivity

集合通信效率 （算法驱动）：

ForestColl all-gather 理论下界
NCCL Ring / Tree 实测带宽
AllToAll 拥塞热点严重度

ATOP 论文用了 11 类目标（9 个 JCT 类 + APL_fail + 成本），项目 Phase 1 推荐 3 个 P0 目标（iter time / 网络成本 / APL_fail），平衡评估器精度上限与多目标拥挤距离衰减问题。

子文档索引

8.2 ATOP — ATOP 详解：11 类超参数 + NSGA-II + 2-stage 评估器 + 实验细节；ZCube 在 ATOP 中的位置。
8.3 TopoOpt — TopoOpt 详解：拓扑 + 并行策略联合优化 + 群论启发 (TotientPerms) + OCS 集成。
8.4 多目标搜索算法对比 — NSGA-II / MOEA/D / MOPSO / MOBO / NSGA-III 对比 + 开源库 + 算法选择决策树。
8.5 拓扑参数化编码方法 — ATOP 11 类超参数详解 + 邻接矩阵 / DSL (Condor) / 图同构约束等其他参数化方法。
8.6 评估器与算法假设 — 解析 / flow-level / packet-level 评估器三层级权衡 + ForestColl / SCCL / TACCL / TE-CCL 集合通信调度合成。
8.7 工具链与开源资产 — pymoo / DEAP / TopoOpt code / Astra-Sim / SimAI / htsim 等开源资产清单与 License 兼容性。

阅读建议

想了解全貌：读本文 + 8.2 ATOP （30 分钟）
想动手实现：本文 + 02 + 8.5 拓扑参数化编码方法 + 8.7 工具链与开源资产（2 小时）
想做算法对比研究：本文 + 02 + 03 + 8.4 多目标搜索算法对比 + 8.6 评估器与算法假设（半天）

参考资料

Al-Fares et al., A Scalable, Commodity Data Center Network Architecture, SIGCOMM 2008. https://doi.org/10.1145/1402958.1402967
Kim et al., Dragonfly, ISCA 2008. https://doi.org/10.1109/ISCA.2008.19
Besta & Hoefler, SlimFly, SC 2014. https://doi.org/10.1109/SC.2014.34
Lakhotia et al., PolarFly, SC 2022. https://doi.org/10.1109/SC41404.2022.00017
Alibaba HPN, SIGCOMM 2024. https://doi.org/10.1145/3651890.3672265
Yan et al., From ATOP to ZCube, SIGCOMM 2025. https://dl.acm.org/doi/10.1145/3718958.3750503
Wang et al., TopoOpt, NSDI 2023. https://www.usenix.org/conference/nsdi23/presentation/wang-weiyang

范围与边界​

名词定义​

为什么需要拓扑寻优​

拓扑寻优有哪 5 种范式​

Paradigm 1：数学构造 + 人工证明​

Paradigm 2：枚举 + 解析评估​

Paradigm 3：黑盒优化 （ATOP 路线，当前主流）​

Paradigm 4：联合优化 （TopoOpt 路线）​

Paradigm 5：神经搜索 （前沿）​

5 种范式横向对比​

选哪个范式由哪几个问题决定​

评估指标体系​

子文档索引​

阅读建议​

参考资料​