SlimFly

基于 MMS 图构造的直径 2 拓扑，在等端口下接近 Moore 界节点数上限

核心要点：

Besta & Hoefler SC 2014 提出，目标是直径 2 + 接近 Moore 界节点数

基于 MMS 图 (McKay-Miller-Siran 1998)，参数 $q$ 须素数且 $q \equiv 1 \pmod 4$

交换机数 $N_s = 2q^2$，每交换机度 $\frac{3q-1}{2}$

达到 Moore 界 ~89% 效率（规则随机图通常 <70%）

直径恒为 2，比 Fat-tree (4-6) / 3D Torus ($O(N^{1/3})$) 低

等端口下比 Fat-tree 少 25-40% 交换机和线缆

$q = 5$ 时与 1960 Hoffman-Singleton 图完全同构

无大规模商业部署（ASIC / 布线 / 路由表三大障碍）

核心论文：[Besta & Hoefler, Slim Fly: A Cost Effective Low-Diameter Network Topology, SC 2014][1]

设计动机：为什么直径 2？

网络设计有三个相互制约的目标：

低直径：任意两节点最大跳数尽小（低延迟）
高节点数：容纳尽可能多节点（大规模）
低度数：每交换机端口数尽少（低成本）

三者不可兼得 — 这就是 Moore 界：给定度数 $d$ 和直径 $k$，节点数上限为：

$$\begin{equation} N_{\text{Moore}}(d, k) = 1 + d \sum_{i=0}^{k-1} (d-1)^i \label{eq:topo-slimfly-moore-bound} \end{equation}$$

直径 $k$	Moore 界	含义
1	$d + 1$	完全图
2	$d^2 + 1$	1 跳达 $d$，2 跳达 $d(d-1)$
3	$d^3 - d^2 + d + 1$	以此类推

@tbl-topo-sf-moore Moore 界

为什么 Moore 界几乎不可达：达到 Moore 界的图叫 Moore 图，仅在少数平凡情况下存在：

情况	度数 $d$	直径 $k$	图	节点数
完全图	任意	1	$K_{d+1}$	$d+1$
奇环	2	任意	$C_{2k+1}$	$2k+1$
Petersen 图	3	2	—	10
Hoffman-Singleton 图	7	2	1960 年构造[2]	50
可能的第三个	57	2	是否存在未知（开放问题）	3,250

@tbl-topo-sf-moore-graphs Moore 图列表

对实际交换机度数 (32/48/64) 而言 $d^2+1$ 永远达不到。SlimFly 要解决的问题：直径 2 约束下，如何构造节点数最接近 $d^2 + 1$ 的图？

为什么选直径 2：

直径 1 = 完全图，几十节点后不可行
直径 2 是第一个"可扩展"的直径，$N \approx d^2$
直径 3+ 虽更多节点，但延迟增加，且 Fat-tree （直径 4-6）已有成熟生态

直径 2 = 任意两交换机最多经过 1 台中间交换机。与 Fat-tree 4-6 跳、3D Torus $O(N^{1/3})$ 跳相比，是可扩展拓扑中最低延迟。

MMS 图基本参数是什么？

McKay-Miller-Siran 1998 构造的接近 Moore 界的正则图族[3]。

参数约束：$q$ 是素数且 $q \equiv 1 \pmod 4$。满足：5, 13, 17, 29, 37, 41, 53, 61, ...

基本参数 (@tbl-topo-sf-mms):

参数	值	含义
交换机总数	$N_s = 2q^2$	两子图各 $q^2$ 台
每交换机度	$d = \frac{3q-1}{2}$	网络端口（连其他交换机）
直径	2	任意两台最多 2 跳
每交换机终端	$T = R - d$	连计算节点 ($R$ = 总端口)

@tbl-topo-sf-mms MMS 图基本参数

与 Moore 界接近程度：

$$\begin{equation} \frac{N_s}{N_{\text{Moore}}} = \frac{2q^2}{(3q/2)^2 + 1} \approx \frac{8}{9} \approx 0.89 \label{eq:topo-slimfly-density-ratio} \end{equation}$$

MMS 达到 Moore 界 ~89%，常规随机图通常 <70%。

构造方法是怎么用代数实现的？

基于有限域 $\text{GF}(q)$ 的二次剩余集合。以 $q = 5$ （50 台交换机，度 7）为例。

前置：有限域与二次剩余

$\text{GF}(q)$ 是模 $q$ 整数集合，加乘都取模 $q$。$\text{GF}(5)$ 示例：$3 + 4 = 7 \equiv 2$，$2 \times 3 = 6 \equiv 1$，$-1 \equiv 4$。

二次剩余 (Quadratic Residue) 是有限域中可表示为非零元素平方的元素。$\text{GF}(5)$ 中：

$x$	$x^2 \pmod 5$
1	1
2	4
3	$9 \equiv 4$
4	$16 \equiv 1$

@tbl-topo-sf-qr GF(5) 二次剩余计算

QR （二次剩余） = $\{1, 4\}$
QNR （二次非剩余） = $\{2, 3\}$

$q \equiv 1 \pmod 4$ 的条件保证 $-1$ 是 QR ($-1 \equiv 4 \in QR$)，确保连接对称性（A 连 B → B 也连 A）。

节点编址

两个子图 $G_0$ 和 $G_1$，各含 $q^2 = 25$ 节点。每节点用三元组 $(g, m, c)$:

$g \in \{0, 1\}$：子图编号
$m \in \{0, ..., 4\}$：第一维坐标
$c \in \{0, ..., 4\}$：第二维坐标

共 50 节点。每子图可想象为 $5 \times 5$ 网格。

子图内连接

$(g, m_1, c_1)$ 和 $(g, m_2, c_2)$ 相连条件：$m_1 \neq m_2$ 且 $\frac{c_1 - c_2}{m_1 - m_2} \in QR$。

直觉：把节点 $(m, c)$ 看作有限域平面上的直线 $y = mx + c$。两节点的"斜率差/截距差"必须是二次剩余才相连。

$(0, 0, 0)$ 的组内邻居示例 (@tbl-topo-sf-intra):

邻居 $(0, m_2, c_2)$	$c_2 / m_2 \pmod 5$	∈ QR?
$(0, 1, 1)$	$1/1 = 1$	✓
$(0, 1, 4)$	$4/1 = 4$	✓
$(0, 2, 2)$	$2/2 = 1$	✓
$(0, 2, 3)$	$3/2 = 9 \equiv 4$	✓
$(0, 3, 3)$	$3/3 = 1$	✓
$(0, 3, 2)$	$2/3 = 4$	✓
$(0, 4, 4)$	$4/4 = 1$	✓
$(0, 4, 1)$	$1/4 = 4$	✓

@tbl-topo-sf-intra $(0, 0, 0)$ 的组内候选邻居

注：$\text{GF}(5)$ 中 $2^{-1} = 3, 3^{-1} = 2, 4^{-1} = 4$。

$(0, 0, 0)$ 有 8 个候选，经生成集筛选后实际度为 $\frac{q-1}{2} = 2$。

子图间连接

$(0, m_0, c_0)$ 与 $(1, m_1, c_1)$ 相连当且仅当 $c_0 + c_1 \equiv m_0 \cdot m_1 \pmod q$。

$(0, 0, 0)$ 跨组邻居：条件简化为 $c_1 = 0$。连接到 $(1, 0, 0), (1, 1, 0), (1, 2, 0), (1, 3, 0), (1, 4, 0)$ 共 5 个。

$(0, 2, 3)$ 跨组邻居：条件 $3 + c_1 \equiv 2 m_1 \pmod 5$，即 $c_1 \equiv 2m_1 - 3$ (@tbl-topo-sf-inter):

$m_1$	$c_1 = 2m_1 - 3 \pmod 5$	邻居
0	$-3 \equiv 2$	$(1, 0, 2)$
1	$-1 \equiv 4$	$(1, 1, 4)$
2	$1$	$(1, 2, 1)$
3	$3$	$(1, 3, 3)$
4	$5 \equiv 0$	$(1, 4, 0)$

@tbl-topo-sf-inter $(0, 2, 3)$ 的跨组邻居

每节点恰好 $q$ 个跨组邻居。

最终度数

总度数 = 组内 + 跨组 = $\frac{q-1}{2} + q = \frac{3q - 1}{2}$。$q = 5$ 时 $d = 2 + 5 = 7$。

与规则拓扑的根本差异

拓扑	连接规则	物理直觉
Ring	左右邻居	一维排列
2D Torus	上下左右邻居	二维网格
Fat-tree	上层/下层	层级树
SlimFly	代数公式	无几何直觉

@tbl-topo-sf-vs-regular SlimFly vs 规则拓扑

SlimFly 没有"左邻右舍""上层下层"的空间含义 — 代数最优性和物理直觉性不可兼得。

为什么直径 2 能保证？

MMS 图的代数结构保证：对任意两个不直接相连的节点 $A$ 和 $B$，至少存在一个节点 $C$ 同时是 $A$ 和 $B$ 的邻居。

$q \equiv 1 \pmod 4$ 的条件保证这个交集性质。所以：

直接相连：1 跳
不直接相连：经一个公共邻居，2 跳
不存在 3 跳以上

$q = 5$ 结果总结

参数	值
交换机总数	50
度数	7
组内连接	每节点 2 条
跨组连接	每节点 5 条
直径	2
Moore 界	$7^2 + 1 = 50$
效率	100%

@tbl-topo-sf-q5 $q = 5$ 结果

$q = 5$ 是特殊情况，恰好达 Moore 界，与 1960 Hoffman-Singleton 图完全同构 — MMS 的代数构造在 $q = 5$ 时重新生成了这个经典 Moore 图。更大 $q$ 下效率降至约 89%，但仍是已知最接近的构造。

可选规模有什么限制？

$q$ 的约束让交换机数离散，但终端数仍灵活:

固定：交换机数量 $N_s = 2q^2$ 及连接关系 (由 $q$ 唯一确定)
灵活：每交换机挂多少终端 ($T = R - d$ 可逐交换机不同)

48-port 交换机下各 $q$ 的终端容量 (@tbl-topo-sf-scale):

$q$	交换机数 $N_s$	网络度 $d$	终端端口 $T = 48 - d$	终端范围
5	50	7	41	1 ~ 2,050
13	338	19	29	1 ~ 9,802
17	578	25	23	1 ~ 13,294
29	1,682	43	5	1 ~ 8,410
37	2,738	55	—	不可行 ($d > 48$)

@tbl-topo-sf-scale 不同 $q$ 的规模

关键观察：

终端数灵活，交换机数离散（50 → 338 → 578 → 1,682 大跳跃）
大 $q$ 时网络度数吃掉大部分端口，剩余终端端口少
不满配的代价：交换机骨架"一口价"，不能按需裁剪，与 Fat-tree 不同

关键参数和与其他拓扑对比

核心问题：SlimFly 的交换机数、度数、直径、割集等关键参数值是多少？与 Fat-tree/Dragonfly/HyperX 对比有什么优势？

属性	值
交换机总数	$N_s = 2q^2$
终端总数	$N = N_s \cdot T$
交换机度（网络）	$d = \frac{3q-1}{2}$
交换机 radix	$R = T + d$
直径	2 （恒定）
割集带宽	$\sim \frac{N}{2} b$ （接近全割集）
链路总数	$\frac{N_s \cdot d}{2}$
Vertex-Transitive	Yes

@tbl-topo-sf-params SlimFly 关键参数

$\sim 1000$ 交换机规模对比 (SlimFly 取 $q = 17$，$N_s = 578$，@tbl-topo-sf-vs):

属性	SlimFly	Fat-tree （3 级）	Dragonfly	HyperX
直径	2	4-6	3	$L$ (2-3)
割集	$\sim 0.89 \cdot \frac{N}{2}b$	$= \frac{N}{2}b$	$\sim 0.5 \cdot \frac{N}{2}b$	可配置
交换机数（等规模）	$N_s$	$\sim 2.5 N_s$	$\sim 1.2 N_s$	$\sim 1.5 N_s$
可选规模	离散（稀疏）	任意	较灵活	灵活
布线	非结构化	层级结构化	组结构化	维度结构化
Vertex-Transitive	Yes	No	No	Yes

@tbl-topo-sf-vs SlimFly vs 其他拓扑

关键数据：相同端口数下，SlimFly 比 Fat-tree 少 25-40% 交换机和线缆；均匀随机流量吞吐与 Fat-tree 相当或略优[1]。

拓扑特性

核心问题：SlimFly 的直径 2、接近全割集、Vertex-Transitive、非层级这四大特性各自带来什么工程影响？

恒定直径 2：任意两交换机最多经过 1 台中间交换机，最坏延迟 = 2 跳，与规模无关。

接近全割集：MMS 图构造保证高度连接均匀性，~89% 效率，对抗性流量某些切分方向略弱于 Fat-tree 精确全割集。

Vertex-Transitive：从任何节点看网络结构完全相同，均匀流量下所有链路负载相等，不存在热点。

非层级：与 Fat-tree (Core→Agg→Edge)、Dragonfly (Group→Router) 不同，代数规则决定连接无层级划分。后果：

路由必须查表：无法用目的地前缀匹配，每交换机需预计算到所有其他交换机的转发表 ($O(N)$ 规模)
布线无物理规律：无法按 rack/pod 组织线缆，每交换机到 $d$ 个邻居的线缆长度方向各异

适用场景与局限

核心问题：SlimFly 适合和不适合哪些并行策略和部署场景？

适用：

延迟是首要目标（直径 2 最优）
规模恰好匹配离散点
流量模式接近均匀
成本约束严格（比 Fat-tree 少 25-40%）

局限：

规模受限于特定素数（338 → 578 → 1682 间隔大）
布线非结构化，运维困难
对抗性流量弱于 Fat-tree
路由表需预计算 ($O(N)$，不如前缀匹配可扩展)
增量扩展不可行 ($q$ 变化需重构拓扑)

实际部署：为什么没有？

无大规模商业部署。工程化障碍：

交换机 ASIC 不支持：商用 ASIC (Broadcom/Mellanox) 针对 Fat-tree/Clos 层级优化，不支持 SlimFly 预计算路由表
非结构化布线无法管理：数据中心标准线缆管理（线槽、标签、对称走线）依赖物理规律，SlimFly 在物理空间无规律
商业生态缺失：SDN 控制器 / 监控 / 故障诊断工具均不支持非层级拓扑
AI 集群流量不匹配：MoE AllToAll 是不均匀流量，SlimFly 缺乏完善分析数据

学术意义：证明在直径和成本方面存在比 Fat-tree 更优的拓扑，建立"接近 Moore 界"作为网络拓扑优化的理论标杆。

演进：ETH Zurich 同一研究组（Hoefler 团队）在 SlimFly 基础上提出 PolarFly (SC 2022)[4]，放宽素数约束 (任意素数幂 vs $q \equiv 1 \pmod 4$)，可选规模点约 SlimFly 3 倍，性能相当。两者面临相同工程化障碍。

Takeaway

知识点	核心结论
设计目标	直径 2 + 接近 Moore 界节点数
Moore 界	$d^2 + 1$ 是直径 2 的理论上限
MMS 图	89% Moore 界效率，远高于随机图 70%
构造	基于 $\text{GF}(q)$ 二次剩余的代数公式，$q$ 素数且 $\equiv 1 \pmod 4$
规模	$N_s = 2q^2$，离散点 50 → 338 → 578 → 1682
度数	$d = \frac{3q-1}{2}$
与 Fat-tree	少 25-40% 交换机和线缆，直径低 2-4
$q = 5$	与 1960 Hoffman-Singleton 图同构
部署现状	无大规模商用，ASIC / 布线 / 路由 / 流量四大障碍

参考资料

Besta M. and Hoefler T., Slim Fly: A Cost Effective Low-Diameter Network Topology, SC 2014. https://doi.org/10.1109/SC.2014.34
Hoffman A. J. and Singleton R. R., On Moore Graphs with Diameters 2 and 3, IBM J. Research and Development 1960. https://doi.org/10.1147/rd.45.0497
McKay B., Miller M., Siran J., A Note on Large Graphs of Diameter Two and Given Maximum Degree, J. Combinatorial Theory Series B 1998. https://doi.org/10.1006/jctb.1998.1828
Lakhotia K. et al., PolarFly: A Cost-Effective and Flexible Low-Diameter Topology, SC 2022. https://doi.org/10.1109/SC41404.2022.00017

设计动机：为什么直径 2？​

MMS 图基本参数是什么？​

构造方法是怎么用代数实现的？​

前置：有限域与二次剩余​

节点编址​

子图内连接​

子图间连接​

最终度数​

与规则拓扑的根本差异​

为什么直径 2 能保证？​

$q = 5$ 结果总结​

可选规模有什么限制？​

关键参数和与其他拓扑对比​

拓扑特性​

适用场景与局限​

实际部署：为什么没有？​

Takeaway​

参考资料​