ZCube
ATOP 自动搜索框架在多规模 GPU 集群上收敛出的递归构造最优拓扑
核心要点:
- 清华 / 中关村 / 驭驯 / ByteDance SIGCOMM 2025
- ATOP (Automated Topology Optimization Pipeline) 用 NSGA-II 自动搜索拓扑
- 11 类超参数 + 2-stage 评估器 (flow-level 粗筛 + Astra-Sim 精筛)
- ZCube 是 ATOP 在多个 GPU scale 收敛的 Pareto inflection-point
- 递归构造:$\text{ZCube}(n, k+1) = n \cdot \text{ZCube}(n, k) + n^k$ 新交换机
- 反传统设计:end-layer $2n$ 端口 / middle-layer $3n$ 端口非对称
- 仿真 1k-16k GPU 比 ROFT 训练快 3%-7%,硬件成本省 26%-46%
- testbed 16 GPU all-reduce / all-to-all 与 ROFT 持平,成本省 25%
- 智谱 GLM-5.1 千卡推理集群已部署 (媒体报道,论文未涉)
核心论文:[Yan, Li et al., From ATOP to ZCube: Automated Topology Optimization Pipeline and A Highly Cost-Effective Network Topology for Large Model Training, SIGCOMM 2025][1]
为什么需要 ZCube?
ROFT 性能好但成本贵:万卡级集群网络成本占总硬件 10-20%。Rail-Optimized Fat-tree (ROFT) 上联无收敛、bisection 全带宽、多路径冗余,但代价是交换机/光模块数量大、单 ToR 故障影响整个 server (论文 Fig 3b: 4k GPU 集群单 ToR 故障使训练性能下降 46.9%)。
ZCube 要回答:能否在保持 ROFT 关键性质 (all-reduce 带宽 + 容错) 的前提下显著降低硬件成本?
答案:通过 ATOP 自动搜索发现的递归构造低直径拓扑,1k-16k GPU 仿真训练快 3%-7%、成本降低 26%-46%;16 GPU testbed all-reduce / all-to-all 与 ROFT 持平,成本降 25%。
ATOP 自动拓扑搜索框架是什么?
三组件:Topology Modeling (定义搜索空间) → Topology Optimizer (NSGA-II 搜索) → Topology Evaluator (2-stage 评估)。
11 类超参数 (论文 §3.2 / Table 1)
ATOP 不在邻接矩阵层面盲搜 ($O(2^{N^2})$ 不可行),而是从专家先验提炼 11 类超参数,覆盖 CLOS / Fat-tree / ROFT / Rail-only / HPN / BCube / DCell / HyperX / Torus / Dragonfly 所有变体:
| 类别 | 数量 | 超参数 | 含义 |
|---|---|---|---|
| User Input | 3 | $L_{\max}, N_1, D_{\max}$ | 最大层数 / GPU 总数 / 层内最大维数 |
| Inter-layer | 5 | $N_i, H_{ij}^i, H_{ij}^j, E_{ij}, B_{ij}$ | 每层节点 / 两层各自分块 / 块间链路 / 带宽倍数 |
| Intra-layer | 6 | $D_i, S_i^k, P_i^k, A_{rt}^{ik}, C_t^{ik}, B_{ii}$ | 层内维数 / 各维大小 / 各维 outward 连接 / 坐标变换 / 偏置 / 带宽 |
@tbl-topo-zc-params ATOP 11 类超参数
层间连接通过 Algorithm 1 (分块 + 块间完全二部图);层内通过 Algorithm 2 (多维网格 + 各维独立 outward,可表达 Torus / HyperX / Dragonfly group)。模板已覆盖已知拓扑并能生成超出已知的非对称变体。
NSGA-II 进化搜索
- 算法:NSGA-II 多目标进化[2]
- 并行:256 AMD EPYC 7Y83 核单服务器
- 规模:每 GPU scale 探索 $10^5$ 拓扑候选
- 耗时 (含 2-stage 评估):256 GPU 6.5h / 1k 10.6h / 4k 25.4h / 16k 71.2h
- 80% 时间在拓扑评估
论文 §1 自承 NSGA-II 不一定最优:更大种群 / 其他算法 (MOEA/D, MOBO) 可能更好。
2-stage 评估器 (最关键工程贡献)
避免对 $10^5$ 候选都跑端到端仿真:
Stage 1 (粗筛,所有候选):
- Flow-level 网络仿真器:max-min fairness + SimGrid 拥塞建模,与 NS-3 误差 1.5%
- ForestColl[3]:计算给定拓扑的理论 all-gather 完成时间下界
- $APL_\text{fail}$:单交换机故障后的平均路径长度
- 真实成本模型:交换机 / 光模块 / 线缆来自 FS 和 Colfax Direct 真实报价
Stage 2 (精筛,仅 Pareto):
- Astra-Sim 2.0[4] + SimAI workload generator 跑端到端 LLM 训练仿真
- 仅评 Stage 1 产出的 Pareto-optimal (~5% 候选量)
- 总仿真量减少 20×
ZCube 怎么递归构造?
$\text{ZCube}(n, 1)$ = 单交换机连 $n$ 个 GPU;$\text{ZCube}(n, k+1)$ = $n$ 个 $\text{ZCube}(n, k)$ + $n^k$ 个新交换机:
$$\begin{equation} \text{ZCube}(n, 1) = \text{single switch connecting } n \text{ GPUs} \label{eq:topo-zcube-base-case} \end{equation}$$ $$\begin{equation} \text{ZCube}(n, k+1) = n \cdot \text{ZCube}(n, k) + n^k \text{ new switches} \label{eq:topo-zcube-recursion} \end{equation}$$性质:
- 节点数 $N = n^{k+1}$ GPUs
- 层数 $k+1$,每层 $n^k$ 个交换机
- 每 GPU NIC 端口数 $k+1$
- 直径 $k$
- 交换机端口需求:level-0 和 level-(k-1) 用 $2n$ 端口,中间层用 $3n$ 端口
对称性破缺是关键创新:传统 Fat-tree / BCube / Dragonfly 各层端口数一致,ZCube 主动用非对称端口配置换效率。
实例
- ZCube(128, 2): 256-port 交换机接 16,384 GPU,直径 2,每 GPU 2 NIC 端口
- ZCube(42, 4): 128-port 交换机接 3,111,696 GPU,直径 4,每 GPU 4 NIC 端口 — 同样 128-port 下 3-layer Fat-tree 仅 524,288 GPU (约 ZCube 16.8%),直径 5
- ZCube(n, 3)-partial:用 core switches 把多个 ZCube(n, 2) 连成 CLOS。Fig 8(c) 用 84 个 ZCube(84, 2) pod (每 pod 7056 GPU) 互联到 592,704 GPU、直径 4
媒体常引"完全二部图 + 双端口"
国内媒体描述的"A 组奇 / B 组偶 + multi-rail/single-rail 双端口接入"实际对应论文 ZCube(2, 3) 特例:8 GPU、3 层各 2 交换机、GPU 编号 000-111 类 hypercube 坐标 (论文 Fig 8b)。真实部署用通用 ZCube(n, k),$n$ 和 $k$ 由 ATOP 在每 GPU scale 联合搜索。
路由:hand-crafted static optimal routing
论文 §6.2 实测部分指出 ZCube 在 testbed 使用 hand-crafted static optimal routing 消除流冲突 — 静态最优路由而非动态 ECMP/AR:每对 GPU 路径预先确定。能消除哈希碰撞引起的负载不均,代价是故障切换需要主动重计算路径表。论文未详述故障切换流程。
与其他低直径拓扑横向对比
核心问题:ZCube 与 ROFT/BCube/Dragonfly/SlimFly 在直径、端口需求、规模上限上如何对比?
低直径拓扑 (直径 ≤ 5) 的端口与规模对比 (@tbl-topo-zc-vs):
| 拓扑 | 最大跳数 | 16k GPU 典型构造 | 备注 |
|---|---|---|---|
| 3-layer Rail-Optimized FT | 5 | 三层 ROFT, 128-port 524K GPU 上限 | 业界主流 baseline |
| 2-layer Rail-only | 3 | 单平面,无全 bisection | 牺牲 EP 性能换成本 |
| 2-layer HPN | 3 | dual-ToR 双平面,容错优于 ROFT | Alibaba HPN[5] |
| BCube(n, 2)/(n, 3) | 3/5 | 服务器中心、低 bisection | 不适合 MoE all-to-all |
| 3D-Torus | $\lceil 3/2 \cdot \sqrt[3]{N} \rceil$ | N=16k → ~36 跳 | TPU 用 |
| Dragonfly | 4 | global links | UGAL 路由 |
| SlimFly | 3 | MMS 图,$q \equiv 1 \pmod 4$ 约束 | 比 Fat-tree 少 25-40% 设备 |
| ZCube(n, 2) | 2 | ZCube(128, 2) → 16,384 GPU | 256-port 交换机 |
| ZCube(n, 3) | 3 | — | 中间层 $3n$ 端口 |
| ZCube(n, 3)-partial | 4 | ZCube(84, 3)-partial → 592,704 GPU | core switch 互联多 pod |
| ZCube(n, 4) | 4 | ZCube(42, 4) → 3,111,696 GPU | 128-port 交换机 |
@tbl-topo-zc-vs ZCube vs 主流拓扑端口与规模 (论文 Table 2)
与 SlimFly / PolarFly / TopoOpt 路线对比
| 拓扑 | 设计路线 | 代表工作 |
|---|---|---|
| SlimFly / PolarFly | 数学构造 (有限域二次剩余 / 射影平面) | SlimFly SC'14 / PolarFly SC'22 |
| TopoOpt | 拓扑 + 路由 + 并行联合优化,依赖 OCS 光交换重配 | TopoOpt NSDI'23[6] |
| ZCube / ATOP | 参数化模板 + NSGA-II 自动搜索 + 高保真仿真器评估,纯电交换 | ZCube SIGCOMM'25 |
@tbl-topo-zc-routes ZCube vs SlimFly/PolarFly/TopoOpt 路线
ATOP 论文 §7 明确不与 TopoOpt 直接对比,因为 TopoOpt 要求 OCS 光交换且局限于直连拓扑,ATOP 面向纯电交换 DCN。
实验数据:testbed / 仿真 / 媒体三源
核心问题:ZCube 在 testbed (16 GPU)、仿真 (1k-16k GPU)、媒体报道(GLM-5.1)三个来源的实验结果分别是什么、可信度如何?
精度和适用范围不同,需要分清。
真实 testbed (论文 §6.2,16 GPU)
- 4 servers × 8×H800 (测试用每 server 4 GPU 共 16),8 台 Mellanox QM9790 IB 交换机
- ZCube(4, 2): 16×ConnectX-7 dual-port 2×200GbE NIC,48×200G 链路
- ROFT baseline: 16×ConnectX-7 single-port 400GbE NIC,32×400G 链路
- 路由:hand-crafted static optimal routing
- 测试:NCCL 2.21.5 + nccl-tests,每数据点 100 次平均
结果 (@tbl-topo-zc-testbed):
| 指标 | ZCube(4,2) vs ROFT | 含义 |
|---|---|---|
| All-reduce 性能 (1M-16G) | 持平 | DP/TP 通信无损失 |
| All-to-all 性能 (1M-16G) | 持平 | EP 通信无损失 |
| 硬件成本 | -25% | 48×200G 比 32×400G 便宜 |
@tbl-topo-zc-testbed ZCube testbed 实测结果
仿真数据 (论文 §6.1,1k-16k GPU)
- 8×H100/server,server 内 900 GB/s NVLink,每 GPU 8×NIC 提供 3.2 Tbps 出带宽
- workload: GPT-3 175B + MoE-GPT (DeepSpeed-MoE)
- 仿真器:Astra-Sim 2.0 + htsim packet-level (含 Broadcom Tomahawk4 RoCE + DLB packet-spraying)
- 对照:ROFT / Rail-only / HPN / BCube / Dragonfly
GPT-3 175B 一个迭代时间 vs ROFT (@tbl-topo-zc-sim):
| GPU scale | 训练速度 | 网络硬件成本 |
|---|---|---|
| 1k | +3% (仿真) | 节省 26%-46% |
| 4k | +5% (仿真) | 节省 26%-46% |
| 16k | +7% (仿真) | 节省 26%-46% |
@tbl-topo-zc-sim ZCube 仿真训练性能
PP 流 P99 流完成时间在 16k GPU 训练中 ZCube 比 ROFT 缩短约 50% (论文 Fig 10) — 低直径直接带来的。
媒体报道 (智谱 GLM-5.1 推理集群)
| 指标 | 改善 |
|---|---|
| 集群推理吞吐 | +15% |
| TTFT P99 尾延迟 | -40.6% |
| 交换机 + 光模块成本 | -1/3 (~33%) |
@tbl-topo-zc-glm GLM-5.1 部署效果 (媒体来源)
注意:这是媒体报道而非论文实验。具体 GPU 数量、ROFT baseline 配置、推理 workload 细节未公开。可信度低于 testbed 和仿真。
深入思考
核心问题:ATOP 自动搜索与人设计工设计的边界在哪?ZCube 的本质分界是什么?有哪些开放问题?
自动拓扑搜索 vs 人工设计的边界
过去 30 年拓扑研究几乎全部是人工设计 + 数学证明 (用射影平面对称、用 random regular graph)。ATOP 范式:先定义目标和约束让搜索算法找结构。但 ATOP 也不是"完全自动":
"ATOP's topology modeling does not generate arbitrary topologies, as it leverages prior knowledge in topology design to achieve a trade-off between the size of the search space and search efficiency."
实际是 intuition-driven modeling + automated exploration 折中。专家提供 11 类超参数骨架,NSGA-II 在骨架内搜具体值。完全自由的图搜索 $O(2^{N^2})$ 不可行,但意味着 ATOP 永远搜不出 Jellyfish 那种 random regular graph 或非分层结构。
ATOP 的真正贡献是 evaluator 工程化
NSGA-II 是 1999 年经典算法,pymoo / DEAP 现成实现都能跑。ATOP 关键贡献其实是 2-stage 评估器 — 把"评估单个候选"从端到端 LLM 仿真 (每个数小时) 缩短到 flow-level + 解析公式 (每个秒级),再用 Pareto 集合精筛端到端。这才让 $10^5$ 候选 × 多代搜索可行。
实际"ATOP 搜出 ZCube"的瓶颈不在算法,而在单机 256 核 + 1TB 内存 + 高保真但够快的 evaluator。论文 80% 时间花在拓扑评估,evaluator 加速 1× 直接让 ATOP 提速 80%。
端口非对称是 ZCube 的本质分界
ZCube 真正反传统之处是 end-layer $2n$ 端口、middle-layer $3n$ 端口的非对称设计。论文 §5.1 点名:
"Traditional topologies such as Fat-Tree, BCube, and Dragonfly, switches typically use the same number of ports, reflecting a preference for symmetry. This focus on symmetry may lead designers to overlook asymmetrical yet high-performance topologies."
人工设计偏好对称 (美学 + 数学性质简洁),ATOP 没这种偏见 — 目标函数只有性能/成本/容错。这是自动搜索发现"人类不会想到的设计"的具体例子。
训练场景已实测,但仍只到 16K GPU
仿真覆盖 GPT-3 175B + MoE-GPT 训练到 16k GPU,提升 3%-7%。但真实硬件 testbed 仍只 16 GPU。论文 §1 自列为 limitation:
"We cannot test ZCube on a larger real testbed with more servers, and to verify its performance at large scale."
仿真精度与 NS-3 误差 1.5% + 与真实 testbed 平均误差 5%。在 5% 误差量级下,ZCube vs ROFT 仿真 +3%-7% 训练速度差异可能在仿真器噪声内 — 这是值得警惕的开放问题。
ATOP 的 NSGA-II 不是终点
论文 §1 + §8 明确改进方向:更大种群、其他算法 (MOEA/D, MOBO)、surrogate model 加速、利用梯度信息。
替代方向:MOBO (多目标贝叶斯) / MOEA/D / 神经搜索 (GNN 编码 + RL agent)。论文 Appendix J 对比可作后续工作参考。
Takeaway
| 知识点 | 核心结论 |
|---|---|
| ATOP 框架 | 11 类超参数 + NSGA-II + 2-stage 评估器 |
| 关键创新 | 评估器工程化让 $10^5$ 候选搜索可行 |
| ZCube 构造 | 递归 $\text{ZCube}(n, k+1) = n \cdot \text{ZCube}(n, k) + n^k$ |
| 端口非对称 | end-layer $2n$ + middle-layer $3n$,反传统对称偏好 |
| 实测 (16 GPU) | all-reduce / all-to-all 与 ROFT 持平,成本省 25% |
| 仿真 (1k-16k) | 训练快 3%-7%,硬件成本省 26%-46% |
| 部署 | 智谱 GLM-5.1 千卡推理集群 (媒体) |
| 开放问题 | 真实大规模 testbed / 仿真精度噪声 / 搜索算法升级 |
参考资料
- Yan Y., Li B. et al., From ATOP to ZCube: Automated Topology Optimization Pipeline and A Highly Cost-Effective Network Topology for Large Model Training, SIGCOMM 2025. https://dl.acm.org/doi/10.1145/3718958.3750503
- Deb K. et al., A Fast and Elitist Multiobjective Genetic Algorithm: NSGA-II, IEEE TEC 2002. https://doi.org/10.1109/4235.996017
- Zhao L. et al., ForestColl: Throughput-Optimal Collective Communications on Heterogeneous Network Fabrics. https://arxiv.org/abs/2402.06787
- Won W. et al., Astra-Sim 2.0, ISPASS 2023. https://ieeexplore.ieee.org/document/10158106
- Alibaba HPN: A Data Center Network for Large Language Model Training, SIGCOMM 2024. https://doi.org/10.1145/3651890.3672265
- Wang W. et al., TopoOpt: Co-optimizing Network Topology and Parallelization Strategy for Distributed Training Jobs, NSDI 2023. https://www.usenix.org/conference/nsdi23/presentation/wang-weiyang