TopoOpt

交替优化拓扑与并行策略，联合最小化 JCT，依赖 OCS 实现 per-job 重接

核心要点：

设计哲学：联合优化 (topo + routing + parallelism) vs ATOP 的模板搜索

Alternating Optimization: Comp.×Comm. (FlexFlow MCMC) + Comm.×Topo. (TopologyFinder) 两平面交替

TotientPerms：用 Euler totient 函数把 $O(n!)$ 全排列空间压到 $O(n / \ln n)$

拓扑空间：只能搜 Circulant graph (regular degree)，不支持端口非对称设计

强依赖 OCS：per-job 一次性重接物理层，商用 patch panel （分钟级）即可

限制：仅支持 DP + MP 并行，MoE / GNN 流量不稳定不适用

TopoOpt (NSDI 2023[1]) 是 ATOP 出现之前的 SOTA 拓扑寻优工作。本文详解其 alternating optimization 算法、TotientPerms 数论构造、OCS 硬件依赖、与 ATOP 的根本差异。

TopoOpt 跟 ATOP 根本差异在哪

核心问题：联合优化 vs 分层模板的取舍？

维度	TopoOpt (NSDI 2023)	ATOP (SIGCOMM 2025)
哲学	联合优化（topo + routing + parallelism 一锅端）	分层模板搜索（先定模板，再调参）
硬件	强依赖 OCS 重接物理层	不要求 OCS （纯电交换 DCN）
搜索空间	Circulant graph （TotientPerms 枚举）	11 类超参数模板（覆盖 Clos / Fat-tree / ...）
并行支持	仅 DP + MP	TP / PP / DP / EP / MP 全覆盖
演示规模	testbed 12 / sim 128-432 / 外推 4394	testbed 16 / sim 256-16384
MoE / GNN	作者自陈"may not hold"	重点 workload

@tbl-toposearch-topoopt-vs-atop TopoOpt vs ATOP 设计哲学对比

来源：Wang et al., NSDI 2023[1] §1, §7; Yan et al., SIGCOMM 2025[2] §7。

TopoOpt 的核心思路是什么

核心问题：Traffic Mutability 是什么意思？为什么选 per-job 一次性重接而不是动态重配？

Traffic Mutability （流量可塑性）

TopoOpt 的根本前提：AllReduce 这种集合通信原语的物理拓扑可以自由构造，不影响数学正确性。

DP 训练里"所有 GPU 都要 reduce 同一份梯度"是逻辑约束，怎么连不重要 — 只要每对 GPU 间存在路径
不像 inter-rack 互联那样有固定的物理位置约束
这给了"按 workload 自由设计拓扑"的可能性

一次性重接 vs 动态重配

TopoOpt 选择 per-job one-shot reconfiguration — 训练任务开始前 OCS 重接一次，训练全程不变：

不需要 OCS 重配延迟到 μs 级（动态方案才需要）
商用 patch panel （Telescent G4 NMT，分钟级重配）够用
论文 §5.7 实测："Reducing the reconfiguration latency all the way to 1 μs enables OCS-reconfig-noFW to match the performance of TopoOpt" — 动态方案只有重配到 1 μs 才能追平 TopoOpt 的 one-shot 方案

Alternating Optimization 怎么交替

核心问题：双平面拆分的原因是什么？收敛保证是什么？

双平面拆分

TopoOpt 把联合优化拆成两个平面，轮流求解（论文 §4.1, Figure 6）：

平面	输入	求解器	输出
Comp.×Comm. （计算 × 通信）	固定拓扑 G	FlexFlow[3] MCMC 搜索	parallelization strategy + device placement
Comm.×Topo. （通信 × 拓扑）	固定 traffic demand	TopologyFinder 算法	拓扑 G + 路由 R + 度数 $(d_A, d_{MP})$

@tbl-toposearch-topoopt-alternating TopoOpt 双平面交替优化

为什么不一次性联合求解

作者明确指出（论文 §4.1）：

"the search space quickly explodes, even at modest scales (e.g., six nodes)"

6 节点联合优化已不可解 → 拆成两平面交替。这是工程妥协，不是真正的全联合优化。

收敛条件

"until convergence or after k iterations, where k is a configurable hyper-parameter" — arXiv:2202.00433 §4.1

没有数学收敛判据，靠迭代次数上限。论文未给典型 k 值。

TotientPerms 怎么把 O(n!) 压到 O(n/ln n)

核心问题：Euler totient 函数怎么用来枚举环置换？为什么搜索空间是 Circulant graph?

这是 TopoOpt 的核心算法贡献。论文 Algorithm 2。

数学基础：Euler Totient 函数

不是 Cayley graph 自同构群 — TopoOpt 实际用的是 Euler totient 函数 $\varphi(n)$ 枚举与 $n$ 互素的整数 $p$。每个 $p$ 定义一个"跳 $p$ 步"的环置换 $\sigma_p$：节点 $S_i$ 直连 $S_{(i+p) \mod n}$。

TotientPerms 伪代码

# 论文 Algorithm 2 转写
for p in range(1, k+1):
    if gcd(p, k) == 1:           # p 与 k 互素
        one_perm = []
        for i in range(0, n//k):
            one_perm += [i + j*p for j in range(k)]
        Pk.append(one_perm)

搜索空间压缩

朴素枚举：$n$ 个节点上的全排列空间 = $O(n!)$ （论文 §4.3 上下文：所有可能的 GPU-to-GPU 直连方式）
约束 $p$ 与 $n$ 互素：空间降为 $\varphi(n)$ 个候选 (每个 $p$ 定义一个唯一环置换)
进一步限制 $p$ 为素数 （按素数定理）：空间降为 $O(n / \ln n)$

与 Cayley graph 的关系

TotientPerms 枚举出的"跳 $p$ 步"环置换叠加，构成的图本质是循环群 $\mathbb{Z}_n$ 上以 $\{p_1, p_2, \ldots\}$ 为生成集的 Circulant graph （Cayley graph 的子类）。论文用 "group theory-inspired" 这个口径，没明确提 Cayley / 自同构。

SelectPermutations + 直径界

从 TotientPerms 输出的候选中按 max-weight matching （Blossom 算法）选 $d_A$ 个置换叠加，构成 AllReduce 子拓扑。

Theorem 1 （直径上界）：$O(d_A \cdot n^{1/d_A})$，结构类似 Chord ring。

TopoOpt 的拓扑搜索空间长什么样

核心问题：拓扑是任意 direct-connect 图吗？包含哪些子结构？

TopoOpt 的拓扑不是任意 direct-connect 图，而是限定在两个子拓扑的叠加：

子拓扑	构造方法	用途
AllReduce 子拓扑	TotientPerms 枚举 → max-weight matching 选 $d_A$ 个环置换叠加	DP 流量
MP 子拓扑	model-parallel 流量矩阵的 max-weight matching	MP (model parallel) 流量
合并拓扑	两子拓扑 union	完整训练 workload

@tbl-toposearch-topoopt-search-space TopoOpt 拓扑搜索空间

特征：

regular graph：每节点度数固定 = $d_A + d_{MP}$
不显式支持 mesh / torus / hypercube
Fat-tree / expander 仅作为 baseline 对比，不在搜索空间内

OCS 硬件依赖意味着什么

核心问题：为什么必须 OCS？不同 OCS 类型的重配延迟怎么影响 TopoOpt?

为什么必须用 OCS

训练中一台服务器需要和很多服务器交换数据，但物理 NIC 端口有限（如 d=4 或 d=8）。OCS 在训练开始前一次性把物理链路接成"对该 workload 最优的拓扑"，训练全程不变。

纯电交换 Fat-tree 强制流量过中央交换机层 → bisection 瓶颈 + 高成本。OCS 给点对点流量提供专线，避开瓶颈。

OCS 类型与重配延迟（论文 Table 1）

OCS 类型	重配延迟	TopoOpt 适用性
Optical Patch Panels (Telescent G4 NMT)	分钟级	TopoOpt testbed 用的
3D MEMS	10 ms	也适用
2D MEMS	11.5 μs	适用
Silicon Photonics	900 ns	适用

@tbl-toposearch-topoopt-ocs-types OCS 类型与重配延迟（论文 Table 1）

TopoOpt 不依赖快速重配，对低成本 patch panel 兼容良好。

商用 OCS 集成

Testbed 使用 Telescent G4 NMT 自动化光纤接线机器人。MIT CSAIL 与 Telescent 合作完成。

联合优化覆盖哪些变量

核心问题：计算 / 通信 / 拓扑三个维度的具体变量和求解器是什么？支持哪些并行类型？

维度	变量	求解器
计算	parallelization strategy / device placement / batch size	FlexFlow MCMC
通信	AllReduce 算法 / routing rules	TopologyFinder
拓扑	graph G / degree allocation $(d_A, d_{MP})$	TotientPerms + Blossom matching

@tbl-toposearch-topoopt-joint-vars TopoOpt 联合优化的三个维度

并行类型支持范围：

[OK] DP (AllReduce)
[OK] MP （model parallel：层 / 权重切分）
[OK] DP + MP hybrid
[FAIL] TP (tensor parallel) — 论文未实验
[FAIL] PP (pipeline parallel) — 论文未实验
[FAIL] EP (expert parallel) — 论文未实验

这是 TopoOpt 与现代 LLM 训练栈 (Megatron-LM / DeepSpeed-MoE) 的关键 gap。

实验配置和性能数据是什么

核心问题：testbed / simulation 规模和 workload 覆盖范围？与 Fat-tree 对比加速比？

Testbed （论文 §6）

12 台服务器，每台 1 × A100 GPU
每节点度数 d=4 （4 × 25 Gbps 分线）
Telescent G4 NMT optical patch panel
100 Gbps RDMA forwarding

Simulation （论文 §5）

Dedicated cluster: 128 节点 (d=4)，扩展到 256 节点
Shared cluster: 432 节点 (d=8)
与 Fat-tree 同成本对比时外推到 k=26 Fat-tree ≈ 4394 节点 (Appendix §5.2)
每节点 4 × A100

Workload

6 个 Meta 生产模型 （论文 §5.1, Appendix D）：

DLRM / CANDLE / BERT / NCF / ResNet50 / VGG (16/19)

未测：GPT / Megatron / MoE 模型。

Baseline 拓扑

Ideal Switch （无阻塞理论上界）
Fat-tree （电交换）
Oversubscribed Fat-tree (2:1)
OCS-reconfig （动态重配 OCS）
SiP-ML （硅光，25 μs 重配）
Expander graph

没有 mesh / torus baseline。

关键性能数据

vs 同成本 Fat-tree：训练加速 3.4× （论文 abstract）

GitHub 代码现状

核心问题：开源代码能不能直接复用？

项目	数据
仓库	https://github.com/hipersys-team/TopoOpt
Stars	40
Forks	16
Commits	20
最后 push	2024-09-10 （至 2026-05 已 ~20 个月无新代码 push）
仓库大小	~12 MB
License	Apache 2.0
语言分布	Jupyter Notebook 50.6% + Shell 49.4% （无大块 Python/C++ runtime）

@tbl-toposearch-topoopt-repo TopoOpt 开源代码现状

主要目录：

simulation/FlexNet：拓扑搜索算法仿真器
simulation/FlexNetPacket: packet-level 仿真器
testbed/dlrm_torch: Meta DLRM 的 PyTorch model-parallel 版本
testbed/topoopt_ff_testbed：改过的 FlexFlow

没有独立的 OCS 仿真器组件 — OCS 行为以 "fixed topology + reconfiguration latency 参数"嵌入在 FlexNet 内。主 README 只列目录，无可直接复现的 end-to-end 命令；子目录有各自 README。

TopoOpt 自陈的局限是什么

核心问题：论文 §7 明确列出的 limitation 有哪些？

限制	原文摘录
Workload 限定	"the most suitable workload…is a set of large DNN training jobs with hybrid data and model parallelism (or simply data parallelism)"
流量模式必须稳定	"TopoOpt's approach assumes the traffic pattern does not change between iterations. However, this assumption may not hold for GNN models or Mixture-of-Expert (MoE) models"
任务 GPU 集合不变	"We assume the set of servers assigned to each job remains the same throughout the lifetime of the job"
容错差	"A single link failure within an AllReduce ring causes the full ring to become inefficient"
弹性差	"Dynamically changing the set of servers participating in a job while keeping both the topology and the parallelization strategy optimal requires augmenting the optimization space"
Bandwidth tax	无直接拓扑链路时使用 host-based forwarding，性能有 bandwidth tax

@tbl-toposearch-topoopt-limits TopoOpt 论文自陈的 Limitations

Circulant Graph 设计的取舍

核心问题：TotientPerms 压缩搜索空间的代价是什么？OCS 依赖为什么阻挡了生产部署？

TotientPerms 把搜索空间从 $O(n!)$ 压到 $O(n / \ln n)$ 是工程妥协的精彩范例 — 用数论性质（Euler totient + 素数定理）大幅压缩可搜空间，但代价是只能搜出 Circulant graph 族：

优势：直径上界 $O(d_A \cdot n^{1/d_A})$ 有理论保证，结构简单可解释
局限：搜不出非对称设计（如 ZCube 的端口非对称结构）；搜不出多层拓扑（只是平铺的 regular graph）

ATOP 的 11 类超参数走的是另一条路 — 保留分层 + 多维结构的可能性，代价是不像 Circulant graph 那样有简洁的数学描述。两条路代表"搜索空间设计哲学"的不同选择。

OCS 依赖是 TopoOpt 不能进数据中心的根本原因。商用 hyperscale 数据中心 (Microsoft / Google / Meta) 至今几乎没有 OCS 部署。原因：

OCS 设备成本（Telescent G4 NMT 单台 ~$100k 量级）
运维复杂（光纤接线机器人故障会 block 整个集群重配）
缺乏成熟的 OCS-aware 路由协议生态

ATOP 选择放弃 OCS 路线，固定纯电交换 DCN — 这让 ATOP 的方案能在标准数据中心硬件上落地，而 TopoOpt 至今没有非合作伙伴的生产部署案例。

MoE 流量不稳定是 TopoOpt 的"理论死穴"：MoE 模型每次训练 iteration 的 EP (expert parallel) 流量分布严重不均 — 某些 expert 被高频选中，AllToAll 流量矩阵在 iteration 间剧烈变化。TopoOpt 假设"traffic pattern does not change between iterations" — 这个假设对 MoE 不成立。所以 TopoOpt 结构性地不适用于当前主流 LLM （GPT-4 / Mixtral / DeepSeek-V3 / Llama 4 都用 MoE）。

后续工作 mFabric[4] (2024) 专门针对 MoE 流量动态变化改进 TopoOpt，但仍依赖 OCS 路径。

后续工作脉络

核心问题：TopoOpt → ATOP 的演进路线是什么？

按时间线：

TopoOpt (NSDI 2023) — 联合优化 + Circulant graph + OCS
mFabric (arXiv 2024) — TopoOpt + MoE 流量适配
ATOP / ZCube (SIGCOMM 2025) — 模板化自动拓扑搜索，放弃 OCS 依赖
Efficient Pre-Training via Topology-Aware (arXiv 2509.15940) — 拓扑感知预训练

TopoOpt 是这条路线的奠基工作。它建立了"拓扑可以为 workload 设计"这个思想，但在落地路径上选了 OCS — 这成为后续工作主要的脱离方向。

Takeaway

知识点	核心结论
设计哲学	联合优化 (topo + routing + parallelism) vs ATOP 模板搜索
Alternating Optimization	Comp.×Comm. (FlexFlow MCMC) + Comm.×Topo. (TopologyFinder)，无收敛保证
TotientPerms	Euler totient + 素数定理把 $O(n!)$ 压到 $O(n/\ln n)$，限定 Circulant graph
OCS 依赖	per-job 一次性重接，商用 patch panel 够用，但阻挡了生产部署
并行类型	仅 DP + MP，无 TP / PP / EP，与现代 LLM 训练栈 gap 大
MoE 死穴	流量假设稳定不适用于 MoE / GNN，是结构性局限
testbed 数据	12 节点 + sim 128-432, vs 同成本 Fat-tree 加速 3.4×
代码现状	2024-09 停更，主 README 无 end-to-end 命令，不可直接复用

参考资料

Wang et al., TopoOpt, NSDI 2023. https://www.usenix.org/conference/nsdi23/presentation/wang-weiyang
Yan et al., From ATOP to ZCube, SIGCOMM 2025. https://dl.acm.org/doi/10.1145/3718958.3750503
FlexFlow. https://arxiv.org/abs/1807.05358
mFabric. https://xudongliao.github.io/assets/pdf/mfabric-arxiv.pdf

TopoOpt 跟 ATOP 根本差异在哪​

TopoOpt 的核心思路是什么​

Traffic Mutability （流量可塑性）​

一次性重接 vs 动态重配​

Alternating Optimization 怎么交替​

双平面拆分​

为什么不一次性联合求解​

收敛条件​

TotientPerms 怎么把 O(n!) 压到 O(n/ln n)​

数学基础：Euler Totient 函数​

TotientPerms 伪代码​

搜索空间压缩​

与 Cayley graph 的关系​

SelectPermutations + 直径界​

TopoOpt 的拓扑搜索空间长什么样​

OCS 硬件依赖意味着什么​

为什么必须用 OCS​

OCS 类型与重配延迟 （论文 Table 1）​

商用 OCS 集成​

联合优化覆盖哪些变量​

实验配置和性能数据是什么​

Testbed （论文 §6）​

Simulation （论文 §5）​

Workload​

Baseline 拓扑​

关键性能数据​

GitHub 代码现状​

TopoOpt 自陈的局限是什么​

Circulant Graph 设计的取舍​

后续工作脉络​

Takeaway​

参考资料​