跳到主要内容

ATOP

用 NSGA-II 搜索 11 类拓扑超参,两阶段评估器实现大规模拓扑自动寻优

核心要点

  • 三组件架构:Topology Modeling (11 类超参) + Topology Optimizer (NSGA-II) + Topology Evaluator (2-stage)
  • 算法对比:NSGA-II 在 4 种算法 (NSGA-II / Bayesian / QMC / Random) 中取得最佳效率-性能平衡,但都未收敛到 Pareto-optimal 集合
  • 2-stage funnel: Stage 1 flow-level 秒级粗筛 $10^5$ 候选,Stage 2 Astra-Sim 端到端精筛 ~5% Pareto
  • 核心指标:JCT (9 个并行 × traffic) + ForestColl 下界 + APL_fail (容错) + 真实成本
  • 算力消耗:80% 时间在拓扑评估;16k GPU 搜索 71.2h (3 天)
  • ZCube 是搜索副产物:ATOP 在 cost-effective inflection point 观察到端口非对称结构,形式化为 ZCube

ATOP (Automated Topology Optimization Pipeline) 是 2025 年 SIGCOMM 收录的拓扑自动寻优框架。本文聚焦 ATOP 寻优算法本身。ZCube 拓扑结构 (递归定义、端口非对称设计、横向对比) 见 2.13 ZCube

ATOP 三组件架构是什么

核心问题:ATOP 的 Topology Modeling / Optimizer / Evaluator 分别做什么?各自的设计原则?

ATOP 三个组件 + 优化循环 (论文 Fig 4):

图 8.1: ATOP 系统架构 (论文 Fig 4 改绘)

三个组件的设计原则

  1. Topology Modeling:从专家先验提炼 11 类超参数 (详见 8.5 拓扑参数化编码方法),覆盖已知 DCN / HPC 拓扑 (CLOS / Fat-tree / ROFT / Rail-only / HPN / BCube / DCell / HyperX / Torus / Dragonfly) 的所有变体
  2. Topology Optimizer: NSGA-II 多目标进化算法 (Deb et al., 2002[1])
  3. Topology Evaluator:两阶段评估,避免对每个候选都跑端到端仿真

为什么选 NSGA-II 而不是 Bayesian / Random

核心问题:4 种算法 (NSGA-II / Bayesian / QMC / Random) 同时间预算下表现如何?NSGA-II 的优势来自哪?

NSGA-II 是 1999 年提出、2002 年正式发表的经典多目标进化算法。在 ATOP 选型中的优势 (论文 §3.3 + Appendix J 实测验证):

  • 非支配排序 + 拥挤距离:天然处理 Pareto 前沿,不需要权重组合
  • 种群级评估:与并行计算天然契合 (ATOP 用 256 核单服务器并行评估种群)
  • 成熟度:开源实现广泛 (pymoo / DEAP / pygmo 等)
  • 维度容忍:在 11-50 维参数空间上经验稳定

Appendix J 实测对比 (1024 GPU 任务,10.6 h 时间预算)

算法同时间下完成的拓扑评估数是否收敛 / 识别 Pareto 前沿
NSGA-II100,000未收敛但表现最佳 (best balance of efficiency and performance)
Bayesian1,000未收敛
QMC (Quasi Monte Carlo)26,000未收敛
Random Search130,000未收敛

@tbl-toposearch-atop-algo-compare ATOP Appendix J 算法对比 (1024 GPU 任务,同 10.6 h 时间预算)

来源:Yan et al., SIGCOMM 2025[2] Appendix J。论文原话:"None of these algorithms lead to the convergence of the Pareto-optimal topology set, nor do they identify the Pareto frontier" — 但 NSGA-II 在 4 种算法中取得最佳的效率-性能平衡。

关键观察

  • Random Search:评估候选数最多 (130k) 但没有方向性
  • Bayesian:只评估了 1,000 候选 — GP surrogate model 的每步开销在 11 维空间下过大
  • QMC:介于两者之间但仍无方向性
  • NSGA-II: 100k 候选 + 进化方向引导 → 在 4 种算法中取得最佳的效率-性能平衡

注意:4 种算法在该时间预算下都未收敛到 Pareto-optimal 集合 — 这是论文 Appendix J 的明确结论。NSGA-II 只是相对最佳,不是绝对意义的"收敛"。这反映了拓扑寻优问题在 11 维 + 11 目标的硬度。

但该实验仍支持:"评估开销秒级 + 维度 ≥ 10 + 目标 ≤ 4-11 时,NSGA-II 的种群迭代 + Pareto 选择比 GP 更高效" — 这是 ATOP 选定 NSGA-II 的依据。

搜索效率细节

  • 种群大小 + 代数:论文未公开具体值,仅说明总评估数 = 100,000
  • 并行化:ATOP 实现"parallel optimization, allowing simultaneous multi-topology evaluations with multiple processors, resulting in linear efficiency gains" (论文 §3.3)
  • 收敛指标 (论文 Fig 16):
    • Pareto-optimal 数量随搜索进度稳定增长
    • Jaccard Distance 度量代际变化,搜索后期稳定下降
    • HyperVolume 度量收敛,搜索后期稳定

2-stage 评估器怎么把评估时间压下来

核心问题:2-stage funnel 怎么从端到端小时级降到流级秒级?评估器内部 4 个目标维度是什么?

ATOP 的核心创新不在算法 (NSGA-II 是 1999 年的) 而在 evaluator 工程化 — 把单候选评估时间从端到端仿真的小时级降到流级仿真的秒级。

Stage 1:粗筛 (所有 $10^5$ 候选)

四个评估维度 (共 11 个目标,论文 §4.1):

JCT (Job Completion Time) for representative training traffic patterns

  • 网络仿真器:ATOP 自研 flow-level network simulator
  • 核心方法:max-min fairness 带宽分配 + SimGrid 拥塞建模
  • 精度验证:与 NS-3 在 64 / 256 GPU GPT-3 22B 训练 iteration time 误差 1.5% (论文 Appendix I Table 4);64 GPU all-to-all JCT 误差 4.3% (Table 5)
  • 代表性流量片段:训练 workload 的关键阶段 (不是端到端整次训练)
  • 目标数:3 种并行策略 × 3 种 traffic pattern = 9 个目标
    • 非 MoE 模型:TP=8 (固定为 8-GPU NVLink server),PP ∈ {4, 8, 16}, DP 由 GPU 数和 TP/PP 反推
    • MoE 模型:256 experts + EP=256, DP = GPU 数 / EP,得 EP-only / Mixed DP-EP 2 个目标

ForestColl all-gather 性能下界

  • 算法:ForestColl[3] Part 1 (理论最优集合通信完成时间,不实际生成调度)
  • 数据量:1 GB (DP 大模型训练典型值)
  • 作用:让评估器对每个候选拓扑都假定"用上理论最优集合通信算法" — 把"算法选择"从搜索维度中消去,不丢失公平性
  • 替代选择:SCCL / TACCL 也能算最优算法,但 ATOP 选了 ForestColl 因为它只算下界 (更快),不生成完整调度

APL_fail (单交换机故障下平均路径长度)

定义 (论文公式 2):

$$\begin{equation} APL_\text{fail} = \frac{1}{|V_s|} \sum_{v_s \in V_s} \frac{1}{|V_g|^2 - |V_g|} \sum_{u, v \in V_g, u \neq v} d_{G' = (V - v_s, E)}(u, v) \label{eq:toposearch-atop-apl-fail} \end{equation}$$

其中:

  • $V_s$:交换机节点集
  • $V_g$: GPU 节点集
  • $d_{G' = (V - v_s, E)}(u, v)$:移除交换机 $v_s$$u$$v$ 的最短路径

含义:枚举所有可能的单交换机故障,计算故障下的平均最短路径长度。这同时包含"正常性能" (路径越短性能越好) 和"容错性" (拓扑越冗余 APL_fail 越接近 APL) 两个目标。

ATOP 用 APL_fail 而不是 APL 作为优化目标,因为 APL_fail 自然涵盖了容错维度。

Network Cost (真实成本模型)

  • 来自 FS 和 Colfax Direct 真实硬件报价 (论文 §4.1)
  • 包括:交换机 / 铜缆 (DAC) / 光纤跳线 (MTP/MPO) / 光模块 / NIC
  • 距离决定线缆类型:
    • 同 server NIC 接同 ToR → 3-meter DAC (铜缆)
    • 同层相邻 switch → 30-meter MTP (光纤)
    • 跨层 / NIC-to-first-layer rail-aligned → 50-meter / 15-meter MTP

论文 §4.1 明确:ATOP 评估包含 4 个 type 的目标 (JCT / ForestColl / APL_fail / Cost),其中 JCT type 内部分布 11 个独立的 optimization objectives

  • 非 MoE 模型:3 种并行策略 × 3 种 traffic pattern = 9 个 JCT 目标
  • MoE 模型:EP-only + Mixed DP-EP = 2 个 JCT 目标
  • 合计 JCT 类 = 11 个 objective

ForestColl / APL_fail / Cost 这 3 个 type 各自是评估器的独立评分维度,论文未明确把它们计入"11 objectives"内 (论文表述是 "4 types and 11 objectives", 11 objectives 来自 JCT type 内部)。

注意:这里的"11 个 objective"与"11 类超参数 (hyperparameter types)"数字巧合,但语义不同 (前者是优化目标计数,后者是超参数 type 计数)。

Stage 2:精筛 (仅 Pareto-optimal 候选)

  • 仿真器:Astra-Sim 2.0[4] (端到端 LLM 训练仿真) + ATOP flow-level 仿真器作 backend
  • Workload Generator: SimAI[5] (阿里开源)
  • 评估对象:仅 Stage 1 产出的 Pareto-optimal 集合 (约 5% = 5,000 个候选)
  • 效果:相对"对 $10^5$ 候选都跑端到端仿真"减少 95% 仿真量 (论文 §3.4 "20-fold speedup")

评估器精度链路

阶段仿真器验证基线误差
Stage 1 flow-levelATOP 自研对照 NS-3 (64/256 GPU GPT-3 22B 训练)1.5% iter time (论文 Appendix I Table 4)
Stage 1 flow-levelATOP 自研对照 NS-3 (64 GPU all-to-all JCT)4.3% JCT (论文 Tab. 5)
Stage 2 端到端Astra-Sim 2.0 + ATOP backend同上同上
Real testbedhtsim packet-level + DLB packet spraying16 GPU H800 实测5% all-reduce / all-to-all bandwidth (论文 Appendix H)

@tbl-toposearch-atop-eval-precision ATOP 评估器精度链路

关键洞察:仿真器与 NS-3 的误差 (1.5%) 远小于与真实 testbed 的误差 (5%) — 说明真实硬件还有 NS-3 仿真未捕捉的因素 (NIC 队列 / HBM 带宽抖动等)。但 5% 误差仍可接受作为 Pareto 筛选依据。

搜索消耗多少算力

核心问题:不同 GPU 规模下搜索时间是多少?评估占比为什么是 80%?

GPU 规模搜索 + 2-stage 评估总耗时
2566.5 h
1,02410.6 h
4,09625.4 h
16,38471.2 h (约 3 天)

@tbl-toposearch-atop-runtime ATOP 不同 GPU 规模搜索耗时

来源:论文 Appendix D[2]

  • 80% 时间在拓扑评估 (不在 NSGA-II 算法本身)
  • 评估器加速对总时间影响巨大 — 这是 ATOP 之后社区最值得发力的方向

ATOP 有哪些使用场景

核心问题:论文给出的 5 个 Use Case 各自的约束和发现是什么?

论文 §4.2 给出 3 个主 Use Case, Appendix A + B 额外给出 2 个扩展 Use Case,共 5 个。

Use Case 1:设计新数据中心 (最常见)

  • 设定:给定 GPU 规模 (256 / 1024 / 4096 / 16384),自由探索所有拓扑
  • 约束:交换机吞吐量 6.4 Tbps (256 GPU) → 51.2 Tbps (16k GPU),每 GPU 最大 1.6 Tbps outbound (多 NIC 配置)
  • 输出:每个规模下的 Pareto 前沿,包括"best performance" / "cost-effective" / "budget-friendly"三个推荐点
  • 关键发现:所有 GPU scale 下 cost-effective 区段都收敛到 ZCube 结构 → 论文据此命名并形式化 ZCube

Use Case 2:调整已有数据中心

  • 设定:已有 4k GPU ROFT,重布线 (不加新交换机/NIC) 改善性能
  • 约束:交换机数 320 / 吞吐 25.6 Tbps / 每 GPU dual-port NIC
  • 输出:固定硬件下的最优重布线方案
  • 发现:ZCube 在受限搜索空间内仍是最优

Use Case 3:扩容已有数据中心

  • 设定:1k GPU 集群扩到 4k GPU
  • 约束:保留原拓扑链路 + 新增交换机吞吐 51.2 Tbps + 单 NIC 限制
  • 新优化目标:链路修改数 $M_\text{Link} = |E_e| + |E_o| - 2|E_e \cap E_o|$ (最小化重布线工作量)
  • 发现:ZCube 在扩容场景同样位于 Pareto 前沿

Use Case 4 + 5 (Appendix A + B)

  • 多租户数据中心 (A): 4 个公司各 4k GPU 共享 16k GPU 集群
  • 异构数据中心 (B): 2048 × H100 + 2048 × A100 混合,每 GPU 单端口 NIC

两个场景 ATOP 都能在严格约束下识别 Pareto 前沿。

ZCube 在 ATOP 中是什么位置

核心问题:ZCube 是 ATOP 显式定义还是搜索产物?工作流是什么?

ZCube 不是 ATOP 显式定义的拓扑,而是 ATOP 搜索过程的产物

"From the results of ATOP, we observe that the topologies at the inflection point (cost-effective) share similar architectures. Most of them have two or three layers of switches... Both ours and we found this topology to be of significant interest and proceeded with small-scale deployments. We summarize and define this type of topology as ZCube." — 论文 §4.2.1

工作流

  1. ATOP 在每个 GPU scale 上搜索 $10^5$ 候选 → 产出 ~5000 Pareto-optimal
  2. 观察 Pareto 前沿 inflection point (成本-性能权衡最优点)
  3. 发现该点附近的拓扑结构高度相似 → 形式化为 ZCube(n, k) 递归族
  4. 在 16 GPU testbed 上实证

这是自动搜索 + 人工归纳的混合 — ATOP 自动找到候选,人类归纳数学描述。

ZCube 拓扑详细结构和性能数据见 2.13 ZCube

ATOP 自陈的局限是什么

核心问题:论文 §1 + §8 明确列出的 limitation 有哪些?

  1. 不能生成任意拓扑:"ATOP's topology modeling does not generate arbitrary topologies, as it leverages prior knowledge in topology design to achieve a trade-off between the size of the search space and search efficiency."

    • 11 类超参数覆盖了已知 DCN / HPC 拓扑族但限定在"分层 + 多维"模板内
    • 搜不出 Jellyfish (random regular graph) / Xpander (结构化 expander) 类拓扑
  2. NSGA-II 不一定最优:"While we achieve good results using the NSGA-II algorithm in this paper, larger sampling sizes or more powerful optimization algorithms may lead to better results."

    • Appendix J 实测 NSGA-II 在 4 种算法中表现最佳 (best balance),但所有算法都未收敛到 Pareto-optimal — 更强算法仍有空间
  3. 规模上限 16k GPU:"Due to time and resource constraints, we optimize for topologies of up to 16384 GPUs, and ATOP can be used for larger scale in future work."

    • 更大规模需要 packet-level 离散事件仿真 (更慢)
  4. 真实 testbed 仅 16 GPU:"We cannot test ZCube on a larger real testbed with more servers, and to verify its performance at large scale; we can only rely on packet-level discrete-event simulation."

NSGA-II 为什么在 ATOP 中跑赢 Bayesian

核心问题:工业界默认 MOBO 是首选,为什么 ATOP 实测 NSGA-II 反而更好?这是普遍规律吗?

ATOP Appendix J 的 NSGA-II vs Bayesian 实测结果反直觉 — 在工业界,多目标贝叶斯优化 (MOBO) 被认为是"评估开销大的多目标问题"的首选。但 ATOP 实测中 Bayesian 同时间预算下只能跑 1000 候选 (vs NSGA-II 100,000),整体表现最差。

三个可能解释

  1. 评估器太快:ATOP flow-level 仿真器秒级评估,Bayesian 的 GP surrogate 每步开销 (拟合 + acquisition function 优化) 反而成为主要开销
  2. 维度过高:11 类超参数实际展开是 50+ 个独立变量,GP 在这个维度下扩展性差
  3. 种群级评估优势:NSGA-II 天然种群级评估,与 256 核并行计算契合;Bayesian 经典版本是顺序的

业界推论:当评估器速度类似 (流级仿真 + 解析模型),NSGA-II / NSGA-III 通常优于 MOBO。MOBO 只在评估开销分钟级以上时有优势。详细对比见 8.4 多目标搜索算法对比

评估器是真正的瓶颈

核心问题:ATOP 80% 时间在评估,后续工作的最高 ROI 方向是什么?

ATOP 80% 时间在拓扑评估 — 算法层面的优化收益有限,evaluator 加速是最高 ROI 的工作方向:

  • Neural surrogate model:用历史评估数据训练 NN 模型,跳过 Stage 1 流级仿真
  • GPU 加速的图算法:APL_fail / ForestColl 等图论计算用 GPU 并行
  • 增量评估:当 NSGA-II 变异只改少数超参数时,复用上一代评估结果

这些方向 ATOP 论文都没做 (论文聚焦于"建立 framework"),是后续工作的明确机会。

11 类超参数的设计哲学 (8.5 拓扑参数化编码方法) 反映了一个深刻的工程哲学 — 完全自由的搜索空间不可行,必须用专家先验压缩

  • 邻接矩阵参数空间:$O(2^{N^2})$, 16k GPU 时 $> 10^{10^8}$ 量级,不可搜
  • ATOP 11 类超参数:每类离散值有限,总组合数 $10^{6-8}$, 可搜

代价是搜索空间偏置 — 只能搜分层 + 多维结构,搜不出非分层结构 (如 Xpander)。这是工程上的合理折中,但留下了未来的扩展空间。

Takeaway

知识点核心结论
三组件架构Topology Modeling (11 类超参) + Optimizer (NSGA-II) + Evaluator (2-stage)
NSGA-II 优势评估秒级 + 11 维下 GP 退化 + 种群级并行契合 256 核服务器
2-stage funnelStage 1 flow-level 秒级粗筛 $10^5$, Stage 2 Astra-Sim 端到端精筛 5% Pareto
4 个评估维度JCT (9 个并行 × traffic) + ForestColl 下界 + APL_fail + Cost
80% 时间在评估评估器加速 ROI 远高于换算法;NN surrogate / GPU 加速 / 增量评估是机会
搜索时间256 GPU 6.5h → 16k GPU 71.2h, NSGA-II 占 20%
ZCube 是产物在 cost-effective inflection point 观察 + 人工归纳为 ZCube(n, k) 递归族
主要局限不能生成任意拓扑 (限分层 + 多维),算法未收敛,testbed 仅 16 GPU

参考资料

  1. Deb et al., NSGA-II, IEEE Trans. Evol. Comput. 2002. https://doi.org/10.1109/4235.996017
  2. Yan et al., From ATOP to ZCube, SIGCOMM 2025. https://dl.acm.org/doi/10.1145/3718958.3750503
  3. Zhao et al., ForestColl, arXiv 2402.06787, 2024.
  4. Won et al., Astra-Sim 2.0, ISPASS 2023. https://ieeexplore.ieee.org/document/10158106
  5. SimAI workload generator (Alibaba). https://github.com/aliyun/SimAI