ZCube

ATOP 自动搜索框架在多规模 GPU 集群上收敛出的递归构造最优拓扑

核心要点：

清华 / 中关村 / 驭驯 / ByteDance SIGCOMM 2025

ATOP (Automated Topology Optimization Pipeline) 用 NSGA-II 自动搜索拓扑

11 类超参数 + 2-stage 评估器（flow-level 粗筛 + Astra-Sim 精筛）

ZCube 是 ATOP 在多个 GPU scale 收敛的 Pareto inflection-point

递归构造：$\text{ZCube}(n, k+1) = n \cdot \text{ZCube}(n, k) + n^k$ 新交换机

反传统设计：end-layer $2n$ 端口 / middle-layer $3n$ 端口非对称

仿真 1k-16k GPU 比 ROFT 训练快 3%-7%，硬件成本省 26%-46%

testbed 16 GPU all-reduce / all-to-all 与 ROFT 持平，成本省 25%

智谱 GLM-5.1 千卡推理集群已部署（媒体报道，论文未涉）

核心论文：[Yan, Li et al., From ATOP to ZCube: Automated Topology Optimization Pipeline and A Highly Cost-Effective Network Topology for Large Model Training, SIGCOMM 2025][1]

为什么需要 ZCube？

ROFT 性能好但成本贵：万卡级集群网络成本占总硬件 10-20%。Rail-Optimized Fat-tree (ROFT) 上联无收敛、bisection 全带宽、多路径冗余，但代价是交换机/光模块数量大、单 ToR 故障影响整个 server （论文 Fig 3b: 4k GPU 集群单 ToR 故障使训练性能下降 46.9%）。

ZCube 要回答：能否在保持 ROFT 关键性质（all-reduce 带宽 + 容错）的前提下显著降低硬件成本？

答案：通过 ATOP 自动搜索发现的递归构造低直径拓扑，1k-16k GPU 仿真训练快 3%-7%、成本降低 26%-46%；16 GPU testbed all-reduce / all-to-all 与 ROFT 持平，成本降 25%。

ATOP 自动拓扑搜索框架是什么？

三组件：Topology Modeling （定义搜索空间） → Topology Optimizer （NSGA-II 搜索） → Topology Evaluator （2-stage 评估）。

11 类超参数（论文 §3.2 / Table 1）

ATOP 不在邻接矩阵层面盲搜 ($O(2^{N^2})$ 不可行)，而是从专家先验提炼 11 类超参数，覆盖 CLOS / Fat-tree / ROFT / Rail-only / HPN / BCube / DCell / HyperX / Torus / Dragonfly 所有变体：

类别	数量	超参数	含义
User Input	3	$L_{\max}, N_1, D_{\max}$	最大层数 / GPU 总数 / 层内最大维数
Inter-layer	5	$N_i, H_{ij}^i, H_{ij}^j, E_{ij}, B_{ij}$	每层节点 / 两层各自分块 / 块间链路 / 带宽倍数
Intra-layer	6	$D_i, S_i^k, P_i^k, A_{rt}^{ik}, C_t^{ik}, B_{ii}$	层内维数 / 各维大小 / 各维 outward 连接 / 坐标变换 / 偏置 / 带宽

@tbl-topo-zc-params ATOP 11 类超参数

层间连接通过 Algorithm 1 （分块 + 块间完全二部图）；层内通过 Algorithm 2 （多维网格 + 各维独立 outward，可表达 Torus / HyperX / Dragonfly group）。模板已覆盖已知拓扑并能生成超出已知的非对称变体。

NSGA-II 进化搜索

算法：NSGA-II 多目标进化[2]
并行：256 AMD EPYC 7Y83 核单服务器
规模：每 GPU scale 探索 $10^5$ 拓扑候选
耗时（含 2-stage 评估）：256 GPU 6.5h / 1k 10.6h / 4k 25.4h / 16k 71.2h
80% 时间在拓扑评估

论文 §1 自承 NSGA-II 不一定最优：更大种群 / 其他算法 (MOEA/D, MOBO) 可能更好。

2-stage 评估器（最关键工程贡献）

避免对 $10^5$ 候选都跑端到端仿真：

Stage 1 （粗筛，所有候选）：

Flow-level 网络仿真器：max-min fairness + SimGrid 拥塞建模，与 NS-3 误差 1.5%
ForestColl[3]：计算给定拓扑的理论 all-gather 完成时间下界
$APL_\text{fail}$：单交换机故障后的平均路径长度
真实成本模型：交换机 / 光模块 / 线缆来自 FS 和 Colfax Direct 真实报价

Stage 2 （精筛，仅 Pareto）：

Astra-Sim 2.0[4] + SimAI workload generator 跑端到端 LLM 训练仿真
仅评 Stage 1 产出的 Pareto-optimal （~5% 候选量）
总仿真量减少 20×

ZCube 怎么递归构造？

$\text{ZCube}(n, 1)$ = 单交换机连 $n$ 个 GPU；$\text{ZCube}(n, k+1)$ = $n$ 个 $\text{ZCube}(n, k)$ + $n^k$ 个新交换机:

$$\begin{equation} \text{ZCube}(n, 1) = \text{single switch connecting } n \text{ GPUs} \label{eq:topo-zcube-base-case} \end{equation}$$ $$\begin{equation} \text{ZCube}(n, k+1) = n \cdot \text{ZCube}(n, k) + n^k \text{ new switches} \label{eq:topo-zcube-recursion} \end{equation}$$

性质：

节点数 $N = n^{k+1}$ GPUs
层数 $k+1$，每层 $n^k$ 个交换机
每 GPU NIC 端口数 $k+1$
直径 $k$
交换机端口需求：level-0 和 level-(k-1) 用 $2n$ 端口，中间层用 $3n$ 端口

对称性破缺是关键创新：传统 Fat-tree / BCube / Dragonfly 各层端口数一致，ZCube 主动用非对称端口配置换效率。

实例

ZCube(128, 2): 256-port 交换机接 16,384 GPU，直径 2，每 GPU 2 NIC 端口
ZCube(42, 4): 128-port 交换机接 3,111,696 GPU，直径 4，每 GPU 4 NIC 端口 — 同样 128-port 下 3-layer Fat-tree 仅 524,288 GPU （约 ZCube 16.8%），直径 5
ZCube(n, 3)-partial：用 core switches 把多个 ZCube(n, 2) 连成 CLOS。Fig 8(c) 用 84 个 ZCube(84, 2) pod （每 pod 7056 GPU）互联到 592,704 GPU、直径 4

媒体常引"完全二部图 + 双端口"

国内媒体描述的"A 组奇 / B 组偶 + multi-rail/single-rail 双端口接入"实际对应论文 ZCube(2, 3) 特例：8 GPU、3 层各 2 交换机、GPU 编号 000-111 类 hypercube 坐标（论文 Fig 8b）。真实部署用通用 ZCube(n, k)，$n$ 和 $k$ 由 ATOP 在每 GPU scale 联合搜索。

路由：hand-crafted static optimal routing

论文 §6.2 实测部分指出 ZCube 在 testbed 使用 hand-crafted static optimal routing 消除流冲突 — 静态最优路由而非动态 ECMP/AR：每对 GPU 路径预先确定。能消除哈希碰撞引起的负载不均，代价是故障切换需要主动重计算路径表。论文未详述故障切换流程。

与其他低直径拓扑横向对比

核心问题：ZCube 与 ROFT/BCube/Dragonfly/SlimFly 在直径、端口需求、规模上限上如何对比？

低直径拓扑（直径 ≤ 5）的端口与规模对比 (@tbl-topo-zc-vs):

拓扑	最大跳数	16k GPU 典型构造	备注
3-layer Rail-Optimized FT	5	三层 ROFT, 128-port 524K GPU 上限	业界主流 baseline
2-layer Rail-only	3	单平面，无全 bisection	牺牲 EP 性能换成本
2-layer HPN	3	dual-ToR 双平面，容错优于 ROFT	Alibaba HPN[5]
BCube(n, 2)/(n, 3)	3/5	服务器中心、低 bisection	不适合 MoE all-to-all
3D-Torus	$\lceil 3/2 \cdot \sqrt[3]{N} \rceil$	N=16k → ~36 跳	TPU 用
Dragonfly	4	global links	UGAL 路由
SlimFly	3	MMS 图，$q \equiv 1 \pmod 4$ 约束	比 Fat-tree 少 25-40% 设备
ZCube(n, 2)	2	ZCube(128, 2) → 16,384 GPU	256-port 交换机
ZCube(n, 3)	3	—	中间层 $3n$ 端口
ZCube(n, 3)-partial	4	ZCube(84, 3)-partial → 592,704 GPU	core switch 互联多 pod
ZCube(n, 4)	4	ZCube(42, 4) → 3,111,696 GPU	128-port 交换机

@tbl-topo-zc-vs ZCube vs 主流拓扑端口与规模（论文 Table 2）

与 SlimFly / PolarFly / TopoOpt 路线对比

拓扑	设计路线	代表工作
SlimFly / PolarFly	数学构造（有限域二次剩余 / 射影平面）	SlimFly SC'14 / PolarFly SC'22
TopoOpt	拓扑 + 路由 + 并行联合优化，依赖 OCS 光交换重配	TopoOpt NSDI'23[6]
ZCube / ATOP	参数化模板 + NSGA-II 自动搜索 + 高保真仿真器评估，纯电交换	ZCube SIGCOMM'25

@tbl-topo-zc-routes ZCube vs SlimFly/PolarFly/TopoOpt 路线

ATOP 论文 §7 明确不与 TopoOpt 直接对比，因为 TopoOpt 要求 OCS 光交换且局限于直连拓扑，ATOP 面向纯电交换 DCN。

实验数据：testbed / 仿真 / 媒体三源

核心问题：ZCube 在 testbed (16 GPU)、仿真 (1k-16k GPU)、媒体报道（GLM-5.1）三个来源的实验结果分别是什么、可信度如何？

精度和适用范围不同，需要分清。

真实 testbed （论文 §6.2，16 GPU）

4 servers × 8×H800 （测试用每 server 4 GPU 共 16），8 台 Mellanox QM9790 IB 交换机
ZCube(4, 2): 16×ConnectX-7 dual-port 2×200GbE NIC，48×200G 链路
ROFT baseline: 16×ConnectX-7 single-port 400GbE NIC，32×400G 链路
路由：hand-crafted static optimal routing
测试：NCCL 2.21.5 + nccl-tests，每数据点 100 次平均

结果 (@tbl-topo-zc-testbed):

指标	ZCube(4,2) vs ROFT	含义
All-reduce 性能 (1M-16G)	持平	DP/TP 通信无损失
All-to-all 性能 (1M-16G)	持平	EP 通信无损失
硬件成本	-25%	48×200G 比 32×400G 便宜

@tbl-topo-zc-testbed ZCube testbed 实测结果

仿真数据（论文 §6.1，1k-16k GPU）

8×H100/server，server 内 900 GB/s NVLink，每 GPU 8×NIC 提供 3.2 Tbps 出带宽
workload: GPT-3 175B + MoE-GPT (DeepSpeed-MoE)
仿真器：Astra-Sim 2.0 + htsim packet-level （含 Broadcom Tomahawk4 RoCE + DLB packet-spraying）
对照：ROFT / Rail-only / HPN / BCube / Dragonfly

GPT-3 175B 一个迭代时间 vs ROFT (@tbl-topo-zc-sim):

GPU scale	训练速度	网络硬件成本
1k	+3% （仿真）	节省 26%-46%
4k	+5% （仿真）	节省 26%-46%
16k	+7% （仿真）	节省 26%-46%

@tbl-topo-zc-sim ZCube 仿真训练性能

PP 流 P99 流完成时间在 16k GPU 训练中 ZCube 比 ROFT 缩短约 50% （论文 Fig 10） — 低直径直接带来的。

媒体报道（智谱 GLM-5.1 推理集群）

指标	改善
集群推理吞吐	+15%
TTFT P99 尾延迟	-40.6%
交换机 + 光模块成本	-1/3 (~33%)

@tbl-topo-zc-glm GLM-5.1 部署效果（媒体来源）

注意：这是媒体报道而非论文实验。具体 GPU 数量、ROFT baseline 配置、推理 workload 细节未公开。可信度低于 testbed 和仿真。

深入思考

核心问题：ATOP 自动搜索与人设计工设计的边界在哪？ZCube 的本质分界是什么？有哪些开放问题？

自动拓扑搜索 vs 人工设计的边界

过去 30 年拓扑研究几乎全部是人工设计 + 数学证明（用射影平面对称、用 random regular graph）。ATOP 范式：先定义目标和约束让搜索算法找结构。但 ATOP 也不是"完全自动":

"ATOP's topology modeling does not generate arbitrary topologies, as it leverages prior knowledge in topology design to achieve a trade-off between the size of the search space and search efficiency."

实际是 intuition-driven modeling + automated exploration 折中。专家提供 11 类超参数骨架，NSGA-II 在骨架内搜具体值。完全自由的图搜索 $O(2^{N^2})$ 不可行，但意味着 ATOP 永远搜不出 Jellyfish 那种 random regular graph 或非分层结构。

ATOP 的真正贡献是 evaluator 工程化

NSGA-II 是 1999 年经典算法，pymoo / DEAP 现成实现都能跑。ATOP 关键贡献其实是 2-stage 评估器 — 把"评估单个候选"从端到端 LLM 仿真（每个数小时）缩短到 flow-level + 解析公式（每个秒级），再用 Pareto 集合精筛端到端。这才让 $10^5$ 候选 × 多代搜索可行。

实际"ATOP 搜出 ZCube"的瓶颈不在算法，而在单机 256 核 + 1TB 内存 + 高保真但够快的 evaluator。论文 80% 时间花在拓扑评估，evaluator 加速 1× 直接让 ATOP 提速 80%。

端口非对称是 ZCube 的本质分界

ZCube 真正反传统之处是 end-layer $2n$ 端口、middle-layer $3n$ 端口的非对称设计。论文 §5.1 点名：

"Traditional topologies such as Fat-Tree, BCube, and Dragonfly, switches typically use the same number of ports, reflecting a preference for symmetry. This focus on symmetry may lead designers to overlook asymmetrical yet high-performance topologies."

人工设计偏好对称（美学 + 数学性质简洁），ATOP 没这种偏见 — 目标函数只有性能/成本/容错。这是自动搜索发现"人类不会想到的设计"的具体例子。

训练场景已实测，但仍只到 16K GPU

仿真覆盖 GPT-3 175B + MoE-GPT 训练到 16k GPU，提升 3%-7%。但真实硬件 testbed 仍只 16 GPU。论文 §1 自列为 limitation:

"We cannot test ZCube on a larger real testbed with more servers, and to verify its performance at large scale."

仿真精度与 NS-3 误差 1.5% + 与真实 testbed 平均误差 5%。在 5% 误差量级下，ZCube vs ROFT 仿真 +3%-7% 训练速度差异可能在仿真器噪声内 — 这是值得警惕的开放问题。

ATOP 的 NSGA-II 不是终点

论文 §1 + §8 明确改进方向：更大种群、其他算法 (MOEA/D, MOBO)、surrogate model 加速、利用梯度信息。

替代方向：MOBO （多目标贝叶斯） / MOEA/D / 神经搜索（GNN 编码 + RL agent）。论文 Appendix J 对比可作后续工作参考。

Takeaway

知识点	核心结论
ATOP 框架	11 类超参数 + NSGA-II + 2-stage 评估器
关键创新	评估器工程化让 $10^5$ 候选搜索可行
ZCube 构造	递归 $\text{ZCube}(n, k+1) = n \cdot \text{ZCube}(n, k) + n^k$
端口非对称	end-layer $2n$ + middle-layer $3n$，反传统对称偏好
实测 (16 GPU)	all-reduce / all-to-all 与 ROFT 持平，成本省 25%
仿真 (1k-16k)	训练快 3%-7%，硬件成本省 26%-46%
部署	智谱 GLM-5.1 千卡推理集群（媒体）
开放问题	真实大规模 testbed / 仿真精度噪声 / 搜索算法升级

参考资料

Yan Y., Li B. et al., From ATOP to ZCube: Automated Topology Optimization Pipeline and A Highly Cost-Effective Network Topology for Large Model Training, SIGCOMM 2025. https://dl.acm.org/doi/10.1145/3718958.3750503
Deb K. et al., A Fast and Elitist Multiobjective Genetic Algorithm: NSGA-II, IEEE TEC 2002. https://doi.org/10.1109/4235.996017
Zhao L. et al., ForestColl: Throughput-Optimal Collective Communications on Heterogeneous Network Fabrics. https://arxiv.org/abs/2402.06787
Won W. et al., Astra-Sim 2.0, ISPASS 2023. https://ieeexplore.ieee.org/document/10158106
Alibaba HPN: A Data Center Network for Large Language Model Training, SIGCOMM 2024. https://doi.org/10.1145/3651890.3672265
Wang W. et al., TopoOpt: Co-optimizing Network Topology and Parallelization Strategy for Distributed Training Jobs, NSDI 2023. https://www.usenix.org/conference/nsdi23/presentation/wang-weiyang

为什么需要 ZCube？​

ATOP 自动拓扑搜索框架是什么？​

11 类超参数 （论文 §3.2 / Table 1）​

NSGA-II 进化搜索​

2-stage 评估器 （最关键工程贡献）​

ZCube 怎么递归构造？​

实例​

媒体常引"完全二部图 + 双端口"​

路由：hand-crafted static optimal routing​

与其他低直径拓扑横向对比​

与 SlimFly / PolarFly / TopoOpt 路线对比​

实验数据：testbed / 仿真 / 媒体三源​

真实 testbed （论文 §6.2，16 GPU）​

仿真数据 （论文 §6.1，1k-16k GPU）​

媒体报道 （智谱 GLM-5.1 推理集群）​

深入思考​

自动拓扑搜索 vs 人工设计的边界​

ATOP 的真正贡献是 evaluator 工程化​

端口非对称是 ZCube 的本质分界​

训练场景已实测，但仍只到 16K GPU​

ATOP 的 NSGA-II 不是终点​

Takeaway​

参考资料​