跳到主要内容

ZCube

ATOP 自动搜索框架在多规模 GPU 集群上收敛出的递归构造最优拓扑

核心要点

  • 清华 / 中关村 / 驭驯 / ByteDance SIGCOMM 2025
  • ATOP (Automated Topology Optimization Pipeline) 用 NSGA-II 自动搜索拓扑
  • 11 类超参数 + 2-stage 评估器 (flow-level 粗筛 + Astra-Sim 精筛)
  • ZCube 是 ATOP 在多个 GPU scale 收敛的 Pareto inflection-point
  • 递归构造:$\text{ZCube}(n, k+1) = n \cdot \text{ZCube}(n, k) + n^k$ 新交换机
  • 反传统设计:end-layer $2n$ 端口 / middle-layer $3n$ 端口非对称
  • 仿真 1k-16k GPU 比 ROFT 训练快 3%-7%,硬件成本省 26%-46%
  • testbed 16 GPU all-reduce / all-to-all 与 ROFT 持平,成本省 25%
  • 智谱 GLM-5.1 千卡推理集群已部署 (媒体报道,论文未涉)

核心论文:[Yan, Li et al., From ATOP to ZCube: Automated Topology Optimization Pipeline and A Highly Cost-Effective Network Topology for Large Model Training, SIGCOMM 2025][1]

为什么需要 ZCube?

ROFT 性能好但成本贵:万卡级集群网络成本占总硬件 10-20%。Rail-Optimized Fat-tree (ROFT) 上联无收敛、bisection 全带宽、多路径冗余,但代价是交换机/光模块数量大、单 ToR 故障影响整个 server (论文 Fig 3b: 4k GPU 集群单 ToR 故障使训练性能下降 46.9%)。

ZCube 要回答:能否在保持 ROFT 关键性质 (all-reduce 带宽 + 容错) 的前提下显著降低硬件成本?

答案:通过 ATOP 自动搜索发现的递归构造低直径拓扑,1k-16k GPU 仿真训练快 3%-7%、成本降低 26%-46%;16 GPU testbed all-reduce / all-to-all 与 ROFT 持平,成本降 25%。

ATOP 自动拓扑搜索框架是什么?

三组件:Topology Modeling (定义搜索空间) → Topology Optimizer (NSGA-II 搜索) → Topology Evaluator (2-stage 评估)。

11 类超参数 (论文 §3.2 / Table 1)

ATOP 不在邻接矩阵层面盲搜 ($O(2^{N^2})$ 不可行),而是从专家先验提炼 11 类超参数,覆盖 CLOS / Fat-tree / ROFT / Rail-only / HPN / BCube / DCell / HyperX / Torus / Dragonfly 所有变体:

类别数量超参数含义
User Input3$L_{\max}, N_1, D_{\max}$最大层数 / GPU 总数 / 层内最大维数
Inter-layer5$N_i, H_{ij}^i, H_{ij}^j, E_{ij}, B_{ij}$每层节点 / 两层各自分块 / 块间链路 / 带宽倍数
Intra-layer6$D_i, S_i^k, P_i^k, A_{rt}^{ik}, C_t^{ik}, B_{ii}$层内维数 / 各维大小 / 各维 outward 连接 / 坐标变换 / 偏置 / 带宽

@tbl-topo-zc-params ATOP 11 类超参数

层间连接通过 Algorithm 1 (分块 + 块间完全二部图);层内通过 Algorithm 2 (多维网格 + 各维独立 outward,可表达 Torus / HyperX / Dragonfly group)。模板已覆盖已知拓扑并能生成超出已知的非对称变体。

NSGA-II 进化搜索

  • 算法:NSGA-II 多目标进化[2]
  • 并行:256 AMD EPYC 7Y83 核单服务器
  • 规模:每 GPU scale 探索 $10^5$ 拓扑候选
  • 耗时 (含 2-stage 评估):256 GPU 6.5h / 1k 10.6h / 4k 25.4h / 16k 71.2h
  • 80% 时间在拓扑评估

论文 §1 自承 NSGA-II 不一定最优:更大种群 / 其他算法 (MOEA/D, MOBO) 可能更好。

2-stage 评估器 (最关键工程贡献)

避免对 $10^5$ 候选都跑端到端仿真:

Stage 1 (粗筛,所有候选)

  • Flow-level 网络仿真器:max-min fairness + SimGrid 拥塞建模,与 NS-3 误差 1.5%
  • ForestColl[3]:计算给定拓扑的理论 all-gather 完成时间下界
  • $APL_\text{fail}$:单交换机故障后的平均路径长度
  • 真实成本模型:交换机 / 光模块 / 线缆来自 FS 和 Colfax Direct 真实报价

Stage 2 (精筛,仅 Pareto)

  • Astra-Sim 2.0[4] + SimAI workload generator 跑端到端 LLM 训练仿真
  • 仅评 Stage 1 产出的 Pareto-optimal (~5% 候选量)
  • 总仿真量减少 20×

ZCube 怎么递归构造?

$\text{ZCube}(n, 1)$ = 单交换机连 $n$ 个 GPU;$\text{ZCube}(n, k+1)$ = $n$$\text{ZCube}(n, k)$ + $n^k$ 个新交换机:

$$\begin{equation} \text{ZCube}(n, 1) = \text{single switch connecting } n \text{ GPUs} \label{eq:topo-zcube-base-case} \end{equation}$$ $$\begin{equation} \text{ZCube}(n, k+1) = n \cdot \text{ZCube}(n, k) + n^k \text{ new switches} \label{eq:topo-zcube-recursion} \end{equation}$$

性质

  • 节点数 $N = n^{k+1}$ GPUs
  • 层数 $k+1$,每层 $n^k$ 个交换机
  • 每 GPU NIC 端口数 $k+1$
  • 直径 $k$
  • 交换机端口需求:level-0 和 level-(k-1) 用 $2n$ 端口,中间层用 $3n$ 端口

对称性破缺是关键创新:传统 Fat-tree / BCube / Dragonfly 各层端口数一致,ZCube 主动用非对称端口配置换效率。

实例

  • ZCube(128, 2): 256-port 交换机接 16,384 GPU,直径 2,每 GPU 2 NIC 端口
  • ZCube(42, 4): 128-port 交换机接 3,111,696 GPU,直径 4,每 GPU 4 NIC 端口 — 同样 128-port 下 3-layer Fat-tree 仅 524,288 GPU (约 ZCube 16.8%),直径 5
  • ZCube(n, 3)-partial:用 core switches 把多个 ZCube(n, 2) 连成 CLOS。Fig 8(c) 用 84 个 ZCube(84, 2) pod (每 pod 7056 GPU) 互联到 592,704 GPU、直径 4

媒体常引"完全二部图 + 双端口"

国内媒体描述的"A 组奇 / B 组偶 + multi-rail/single-rail 双端口接入"实际对应论文 ZCube(2, 3) 特例:8 GPU、3 层各 2 交换机、GPU 编号 000-111 类 hypercube 坐标 (论文 Fig 8b)。真实部署用通用 ZCube(n, k)$n$$k$ 由 ATOP 在每 GPU scale 联合搜索。

路由:hand-crafted static optimal routing

论文 §6.2 实测部分指出 ZCube 在 testbed 使用 hand-crafted static optimal routing 消除流冲突 — 静态最优路由而非动态 ECMP/AR:每对 GPU 路径预先确定。能消除哈希碰撞引起的负载不均,代价是故障切换需要主动重计算路径表。论文未详述故障切换流程。

与其他低直径拓扑横向对比

核心问题:ZCube 与 ROFT/BCube/Dragonfly/SlimFly 在直径、端口需求、规模上限上如何对比?

低直径拓扑 (直径 ≤ 5) 的端口与规模对比 (@tbl-topo-zc-vs):

拓扑最大跳数16k GPU 典型构造备注
3-layer Rail-Optimized FT5三层 ROFT, 128-port 524K GPU 上限业界主流 baseline
2-layer Rail-only3单平面,无全 bisection牺牲 EP 性能换成本
2-layer HPN3dual-ToR 双平面,容错优于 ROFTAlibaba HPN[5]
BCube(n, 2)/(n, 3)3/5服务器中心、低 bisection不适合 MoE all-to-all
3D-Torus$\lceil 3/2 \cdot \sqrt[3]{N} \rceil$N=16k → ~36 跳TPU 用
Dragonfly4global linksUGAL 路由
SlimFly3MMS 图,$q \equiv 1 \pmod 4$ 约束比 Fat-tree 少 25-40% 设备
ZCube(n, 2)2ZCube(128, 2) → 16,384 GPU256-port 交换机
ZCube(n, 3)3中间层 $3n$ 端口
ZCube(n, 3)-partial4ZCube(84, 3)-partial → 592,704 GPUcore switch 互联多 pod
ZCube(n, 4)4ZCube(42, 4) → 3,111,696 GPU128-port 交换机

@tbl-topo-zc-vs ZCube vs 主流拓扑端口与规模 (论文 Table 2)

与 SlimFly / PolarFly / TopoOpt 路线对比

拓扑设计路线代表工作
SlimFly / PolarFly数学构造 (有限域二次剩余 / 射影平面)SlimFly SC'14 / PolarFly SC'22
TopoOpt拓扑 + 路由 + 并行联合优化,依赖 OCS 光交换重配TopoOpt NSDI'23[6]
ZCube / ATOP参数化模板 + NSGA-II 自动搜索 + 高保真仿真器评估,纯电交换ZCube SIGCOMM'25

@tbl-topo-zc-routes ZCube vs SlimFly/PolarFly/TopoOpt 路线

ATOP 论文 §7 明确不与 TopoOpt 直接对比,因为 TopoOpt 要求 OCS 光交换且局限于直连拓扑,ATOP 面向纯电交换 DCN。

实验数据:testbed / 仿真 / 媒体三源

核心问题:ZCube 在 testbed (16 GPU)、仿真 (1k-16k GPU)、媒体报道(GLM-5.1)三个来源的实验结果分别是什么、可信度如何?

精度和适用范围不同,需要分清

真实 testbed (论文 §6.2,16 GPU)

  • 4 servers × 8×H800 (测试用每 server 4 GPU 共 16),8 台 Mellanox QM9790 IB 交换机
  • ZCube(4, 2): 16×ConnectX-7 dual-port 2×200GbE NIC,48×200G 链路
  • ROFT baseline: 16×ConnectX-7 single-port 400GbE NIC,32×400G 链路
  • 路由:hand-crafted static optimal routing
  • 测试:NCCL 2.21.5 + nccl-tests,每数据点 100 次平均

结果 (@tbl-topo-zc-testbed):

指标ZCube(4,2) vs ROFT含义
All-reduce 性能 (1M-16G)持平DP/TP 通信无损失
All-to-all 性能 (1M-16G)持平EP 通信无损失
硬件成本-25%48×200G 比 32×400G 便宜

@tbl-topo-zc-testbed ZCube testbed 实测结果

仿真数据 (论文 §6.1,1k-16k GPU)

  • 8×H100/server,server 内 900 GB/s NVLink,每 GPU 8×NIC 提供 3.2 Tbps 出带宽
  • workload: GPT-3 175B + MoE-GPT (DeepSpeed-MoE)
  • 仿真器:Astra-Sim 2.0 + htsim packet-level (含 Broadcom Tomahawk4 RoCE + DLB packet-spraying)
  • 对照:ROFT / Rail-only / HPN / BCube / Dragonfly

GPT-3 175B 一个迭代时间 vs ROFT (@tbl-topo-zc-sim):

GPU scale训练速度网络硬件成本
1k+3% (仿真)节省 26%-46%
4k+5% (仿真)节省 26%-46%
16k+7% (仿真)节省 26%-46%

@tbl-topo-zc-sim ZCube 仿真训练性能

PP 流 P99 流完成时间在 16k GPU 训练中 ZCube 比 ROFT 缩短约 50% (论文 Fig 10) — 低直径直接带来的。

媒体报道 (智谱 GLM-5.1 推理集群)

指标改善
集群推理吞吐+15%
TTFT P99 尾延迟-40.6%
交换机 + 光模块成本-1/3 (~33%)

@tbl-topo-zc-glm GLM-5.1 部署效果 (媒体来源)

注意:这是媒体报道而非论文实验。具体 GPU 数量、ROFT baseline 配置、推理 workload 细节未公开。可信度低于 testbed 和仿真。

深入思考

核心问题:ATOP 自动搜索与人设计工设计的边界在哪?ZCube 的本质分界是什么?有哪些开放问题?

自动拓扑搜索 vs 人工设计的边界

过去 30 年拓扑研究几乎全部是人工设计 + 数学证明 (用射影平面对称、用 random regular graph)。ATOP 范式:先定义目标和约束让搜索算法找结构。但 ATOP 也不是"完全自动":

"ATOP's topology modeling does not generate arbitrary topologies, as it leverages prior knowledge in topology design to achieve a trade-off between the size of the search space and search efficiency."

实际是 intuition-driven modeling + automated exploration 折中。专家提供 11 类超参数骨架,NSGA-II 在骨架内搜具体值。完全自由的图搜索 $O(2^{N^2})$ 不可行,但意味着 ATOP 永远搜不出 Jellyfish 那种 random regular graph 或非分层结构。

ATOP 的真正贡献是 evaluator 工程化

NSGA-II 是 1999 年经典算法,pymoo / DEAP 现成实现都能跑。ATOP 关键贡献其实是 2-stage 评估器 — 把"评估单个候选"从端到端 LLM 仿真 (每个数小时) 缩短到 flow-level + 解析公式 (每个秒级),再用 Pareto 集合精筛端到端。这才让 $10^5$ 候选 × 多代搜索可行。

实际"ATOP 搜出 ZCube"的瓶颈不在算法,而在单机 256 核 + 1TB 内存 + 高保真但够快的 evaluator。论文 80% 时间花在拓扑评估,evaluator 加速 1× 直接让 ATOP 提速 80%。

端口非对称是 ZCube 的本质分界

ZCube 真正反传统之处是 end-layer $2n$ 端口、middle-layer $3n$ 端口的非对称设计。论文 §5.1 点名:

"Traditional topologies such as Fat-Tree, BCube, and Dragonfly, switches typically use the same number of ports, reflecting a preference for symmetry. This focus on symmetry may lead designers to overlook asymmetrical yet high-performance topologies."

人工设计偏好对称 (美学 + 数学性质简洁),ATOP 没这种偏见 — 目标函数只有性能/成本/容错。这是自动搜索发现"人类不会想到的设计"的具体例子。

训练场景已实测,但仍只到 16K GPU

仿真覆盖 GPT-3 175B + MoE-GPT 训练到 16k GPU,提升 3%-7%。但真实硬件 testbed 仍只 16 GPU。论文 §1 自列为 limitation:

"We cannot test ZCube on a larger real testbed with more servers, and to verify its performance at large scale."

仿真精度与 NS-3 误差 1.5% + 与真实 testbed 平均误差 5%。在 5% 误差量级下,ZCube vs ROFT 仿真 +3%-7% 训练速度差异可能在仿真器噪声内 — 这是值得警惕的开放问题。

ATOP 的 NSGA-II 不是终点

论文 §1 + §8 明确改进方向:更大种群、其他算法 (MOEA/D, MOBO)、surrogate model 加速、利用梯度信息。

替代方向:MOBO (多目标贝叶斯) / MOEA/D / 神经搜索 (GNN 编码 + RL agent)。论文 Appendix J 对比可作后续工作参考。

Takeaway

知识点核心结论
ATOP 框架11 类超参数 + NSGA-II + 2-stage 评估器
关键创新评估器工程化让 $10^5$ 候选搜索可行
ZCube 构造递归 $\text{ZCube}(n, k+1) = n \cdot \text{ZCube}(n, k) + n^k$
端口非对称end-layer $2n$ + middle-layer $3n$,反传统对称偏好
实测 (16 GPU)all-reduce / all-to-all 与 ROFT 持平,成本省 25%
仿真 (1k-16k)训练快 3%-7%,硬件成本省 26%-46%
部署智谱 GLM-5.1 千卡推理集群 (媒体)
开放问题真实大规模 testbed / 仿真精度噪声 / 搜索算法升级

参考资料

  1. Yan Y., Li B. et al., From ATOP to ZCube: Automated Topology Optimization Pipeline and A Highly Cost-Effective Network Topology for Large Model Training, SIGCOMM 2025. https://dl.acm.org/doi/10.1145/3718958.3750503
  2. Deb K. et al., A Fast and Elitist Multiobjective Genetic Algorithm: NSGA-II, IEEE TEC 2002. https://doi.org/10.1109/4235.996017
  3. Zhao L. et al., ForestColl: Throughput-Optimal Collective Communications on Heterogeneous Network Fabrics. https://arxiv.org/abs/2402.06787
  4. Won W. et al., Astra-Sim 2.0, ISPASS 2023. https://ieeexplore.ieee.org/document/10158106
  5. Alibaba HPN: A Data Center Network for Large Language Model Training, SIGCOMM 2024. https://doi.org/10.1145/3651890.3672265
  6. Wang W. et al., TopoOpt: Co-optimizing Network Topology and Parallelization Strategy for Distributed Training Jobs, NSDI 2023. https://www.usenix.org/conference/nsdi23/presentation/wang-weiyang