跳到主要内容

SlimFly

基于 MMS 图构造的直径 2 拓扑,在等端口下接近 Moore 界节点数上限

核心要点

  • Besta & Hoefler SC 2014 提出,目标是直径 2 + 接近 Moore 界节点数
  • 基于 MMS 图 (McKay-Miller-Siran 1998),参数 $q$ 须素数且 $q \equiv 1 \pmod 4$
  • 交换机数 $N_s = 2q^2$,每交换机度 $\frac{3q-1}{2}$
  • 达到 Moore 界 ~89% 效率 (规则随机图通常 <70%)
  • 直径恒为 2,比 Fat-tree (4-6) / 3D Torus ($O(N^{1/3})$) 低
  • 等端口下比 Fat-tree 少 25-40% 交换机和线缆
  • $q = 5$ 时与 1960 Hoffman-Singleton 图完全同构
  • 无大规模商业部署 (ASIC / 布线 / 路由表三大障碍)

核心论文:[Besta & Hoefler, Slim Fly: A Cost Effective Low-Diameter Network Topology, SC 2014][1]

设计动机:为什么直径 2?

网络设计有三个相互制约的目标

  • 低直径:任意两节点最大跳数尽小 (低延迟)
  • 高节点数:容纳尽可能多节点 (大规模)
  • 低度数:每交换机端口数尽少 (低成本)

三者不可兼得 — 这就是 Moore 界:给定度数 $d$ 和直径 $k$,节点数上限为:

$$\begin{equation} N_{\text{Moore}}(d, k) = 1 + d \sum_{i=0}^{k-1} (d-1)^i \label{eq:topo-slimfly-moore-bound} \end{equation}$$
直径 $k$Moore 界含义
1$d + 1$完全图
2$d^2 + 1$1 跳达 $d$,2 跳达 $d(d-1)$
3$d^3 - d^2 + d + 1$以此类推

@tbl-topo-sf-moore Moore 界

为什么 Moore 界几乎不可达:达到 Moore 界的图叫 Moore 图,仅在少数平凡情况下存在:

情况度数 $d$直径 $k$节点数
完全图任意1$K_{d+1}$$d+1$
奇环2任意$C_{2k+1}$$2k+1$
Petersen 图3210
Hoffman-Singleton 图721960 年构造[2]50
可能的第三个572是否存在未知 (开放问题)3,250

@tbl-topo-sf-moore-graphs Moore 图列表

对实际交换机度数 (32/48/64) 而言 $d^2+1$ 永远达不到。SlimFly 要解决的问题:直径 2 约束下,如何构造节点数最接近 $d^2 + 1$ 的图

为什么选直径 2

  • 直径 1 = 完全图,几十节点后不可行
  • 直径 2 是第一个"可扩展"的直径,$N \approx d^2$
  • 直径 3+ 虽更多节点,但延迟增加,且 Fat-tree (直径 4-6) 已有成熟生态

直径 2 = 任意两交换机最多经过 1 台中间交换机。与 Fat-tree 4-6 跳、3D Torus $O(N^{1/3})$ 跳相比,是可扩展拓扑中最低延迟。

MMS 图基本参数是什么?

McKay-Miller-Siran 1998 构造的接近 Moore 界的正则图族[3]

参数约束$q$ 是素数且 $q \equiv 1 \pmod 4$。满足:5, 13, 17, 29, 37, 41, 53, 61, ...

基本参数 (@tbl-topo-sf-mms):

参数含义
交换机总数$N_s = 2q^2$两子图各 $q^2$
每交换机度$d = \frac{3q-1}{2}$网络端口 (连其他交换机)
直径2任意两台最多 2 跳
每交换机终端$T = R - d$连计算节点 ($R$ = 总端口)

@tbl-topo-sf-mms MMS 图基本参数

与 Moore 界接近程度

$$\begin{equation} \frac{N_s}{N_{\text{Moore}}} = \frac{2q^2}{(3q/2)^2 + 1} \approx \frac{8}{9} \approx 0.89 \label{eq:topo-slimfly-density-ratio} \end{equation}$$

MMS 达到 Moore 界 ~89%,常规随机图通常 <70%。

构造方法是怎么用代数实现的?

基于有限域 $\text{GF}(q)$ 的二次剩余集合。以 $q = 5$ (50 台交换机,度 7) 为例。

前置:有限域与二次剩余

$\text{GF}(q)$ 是模 $q$ 整数集合,加乘都取模 $q$$\text{GF}(5)$ 示例:$3 + 4 = 7 \equiv 2$$2 \times 3 = 6 \equiv 1$$-1 \equiv 4$

二次剩余 (Quadratic Residue) 是有限域中可表示为非零元素平方的元素。$\text{GF}(5)$ 中:

$x$$x^2 \pmod 5$
11
24
3$9 \equiv 4$
4$16 \equiv 1$

@tbl-topo-sf-qr GF(5) 二次剩余计算

  • QR (二次剩余) = $\{1, 4\}$
  • QNR (二次非剩余) = $\{2, 3\}$

$q \equiv 1 \pmod 4$ 的条件保证 $-1$ 是 QR ($-1 \equiv 4 \in QR$),确保连接对称性 (A 连 B → B 也连 A)。

节点编址

两个子图 $G_0$$G_1$,各含 $q^2 = 25$ 节点。每节点用三元组 $(g, m, c)$:

  • $g \in \{0, 1\}$:子图编号
  • $m \in \{0, ..., 4\}$:第一维坐标
  • $c \in \{0, ..., 4\}$:第二维坐标

共 50 节点。每子图可想象为 $5 \times 5$ 网格。

子图内连接

$(g, m_1, c_1)$$(g, m_2, c_2)$ 相连条件:$m_1 \neq m_2$$\frac{c_1 - c_2}{m_1 - m_2} \in QR$

直觉:把节点 $(m, c)$ 看作有限域平面上的直线 $y = mx + c$。两节点的"斜率差/截距差"必须是二次剩余才相连。

$(0, 0, 0)$ 的组内邻居示例 (@tbl-topo-sf-intra):

邻居 $(0, m_2, c_2)$$c_2 / m_2 \pmod 5$∈ QR?
$(0, 1, 1)$$1/1 = 1$
$(0, 1, 4)$$4/1 = 4$
$(0, 2, 2)$$2/2 = 1$
$(0, 2, 3)$$3/2 = 9 \equiv 4$
$(0, 3, 3)$$3/3 = 1$
$(0, 3, 2)$$2/3 = 4$
$(0, 4, 4)$$4/4 = 1$
$(0, 4, 1)$$1/4 = 4$

@tbl-topo-sf-intra $(0, 0, 0)$ 的组内候选邻居

注:$\text{GF}(5)$$2^{-1} = 3, 3^{-1} = 2, 4^{-1} = 4$

$(0, 0, 0)$ 有 8 个候选,经生成集筛选后实际度为 $\frac{q-1}{2} = 2$

子图间连接

$(0, m_0, c_0)$$(1, m_1, c_1)$ 相连当且仅当 $c_0 + c_1 \equiv m_0 \cdot m_1 \pmod q$

$(0, 0, 0)$ 跨组邻居:条件简化为 $c_1 = 0$。连接到 $(1, 0, 0), (1, 1, 0), (1, 2, 0), (1, 3, 0), (1, 4, 0)$ 共 5 个。

$(0, 2, 3)$ 跨组邻居:条件 $3 + c_1 \equiv 2 m_1 \pmod 5$,即 $c_1 \equiv 2m_1 - 3$ (@tbl-topo-sf-inter):

$m_1$$c_1 = 2m_1 - 3 \pmod 5$邻居
0$-3 \equiv 2$$(1, 0, 2)$
1$-1 \equiv 4$$(1, 1, 4)$
2$1$$(1, 2, 1)$
3$3$$(1, 3, 3)$
4$5 \equiv 0$$(1, 4, 0)$

@tbl-topo-sf-inter $(0, 2, 3)$ 的跨组邻居

每节点恰好 $q$ 个跨组邻居。

最终度数

总度数 = 组内 + 跨组 = $\frac{q-1}{2} + q = \frac{3q - 1}{2}$$q = 5$$d = 2 + 5 = 7$

与规则拓扑的根本差异

拓扑连接规则物理直觉
Ring左右邻居一维排列
2D Torus上下左右邻居二维网格
Fat-tree上层/下层层级树
SlimFly代数公式无几何直觉

@tbl-topo-sf-vs-regular SlimFly vs 规则拓扑

SlimFly 没有"左邻右舍""上层下层"的空间含义 — 代数最优性和物理直觉性不可兼得

为什么直径 2 能保证?

MMS 图的代数结构保证:对任意两个不直接相连的节点 $A$$B$,至少存在一个节点 $C$ 同时是 $A$$B$ 的邻居。

$q \equiv 1 \pmod 4$ 的条件保证这个交集性质。所以:

  • 直接相连:1 跳
  • 不直接相连:经一个公共邻居,2 跳
  • 不存在 3 跳以上

$q = 5$ 结果总结

参数
交换机总数50
度数7
组内连接每节点 2 条
跨组连接每节点 5 条
直径2
Moore 界$7^2 + 1 = 50$
效率100%

@tbl-topo-sf-q5 $q = 5$ 结果

$q = 5$ 是特殊情况,恰好达 Moore 界,与 1960 Hoffman-Singleton 图完全同构 — MMS 的代数构造在 $q = 5$ 时重新生成了这个经典 Moore 图。更大 $q$ 下效率降至约 89%,但仍是已知最接近的构造。

可选规模有什么限制?

$q$ 的约束让交换机数离散,但终端数仍灵活:

  • 固定:交换机数量 $N_s = 2q^2$ 及连接关系 (由 $q$ 唯一确定)
  • 灵活:每交换机挂多少终端 ($T = R - d$ 可逐交换机不同)

48-port 交换机下各 $q$ 的终端容量 (@tbl-topo-sf-scale):

$q$交换机数 $N_s$网络度 $d$终端端口 $T = 48 - d$终端范围
5507411 ~ 2,050
1333819291 ~ 9,802
1757825231 ~ 13,294
291,6824351 ~ 8,410
372,73855不可行 ($d > 48$)

@tbl-topo-sf-scale 不同 $q$ 的规模

关键观察

  • 终端数灵活,交换机数离散 (50 → 338 → 578 → 1,682 大跳跃)
  • $q$ 时网络度数吃掉大部分端口,剩余终端端口少
  • 不满配的代价:交换机骨架"一口价",不能按需裁剪,与 Fat-tree 不同

关键参数和与其他拓扑对比

核心问题:SlimFly 的交换机数、度数、直径、割集等关键参数值是多少?与 Fat-tree/Dragonfly/HyperX 对比有什么优势?

属性
交换机总数$N_s = 2q^2$
终端总数$N = N_s \cdot T$
交换机度 (网络)$d = \frac{3q-1}{2}$
交换机 radix$R = T + d$
直径2 (恒定)
割集带宽$\sim \frac{N}{2} b$ (接近全割集)
链路总数$\frac{N_s \cdot d}{2}$
Vertex-TransitiveYes

@tbl-topo-sf-params SlimFly 关键参数

$\sim 1000$ 交换机规模对比 (SlimFly 取 $q = 17$$N_s = 578$@tbl-topo-sf-vs):

属性SlimFlyFat-tree (3 级)DragonflyHyperX
直径24-63$L$ (2-3)
割集$\sim 0.89 \cdot \frac{N}{2}b$$= \frac{N}{2}b$$\sim 0.5 \cdot \frac{N}{2}b$可配置
交换机数 (等规模)$N_s$$\sim 2.5 N_s$$\sim 1.2 N_s$$\sim 1.5 N_s$
可选规模离散 (稀疏)任意较灵活灵活
布线非结构化层级结构化组结构化维度结构化
Vertex-TransitiveYesNoNoYes

@tbl-topo-sf-vs SlimFly vs 其他拓扑

关键数据:相同端口数下,SlimFly 比 Fat-tree 少 25-40% 交换机和线缆;均匀随机流量吞吐与 Fat-tree 相当或略优[1]

拓扑特性

核心问题:SlimFly 的直径 2、接近全割集、Vertex-Transitive、非层级这四大特性各自带来什么工程影响?

恒定直径 2:任意两交换机最多经过 1 台中间交换机,最坏延迟 = 2 跳,与规模无关。

接近全割集:MMS 图构造保证高度连接均匀性,~89% 效率,对抗性流量某些切分方向略弱于 Fat-tree 精确全割集。

Vertex-Transitive:从任何节点看网络结构完全相同,均匀流量下所有链路负载相等,不存在热点。

非层级:与 Fat-tree (Core→Agg→Edge)、Dragonfly (Group→Router) 不同,代数规则决定连接无层级划分。后果:

  1. 路由必须查表:无法用目的地前缀匹配,每交换机需预计算到所有其他交换机的转发表 ($O(N)$ 规模)
  2. 布线无物理规律:无法按 rack/pod 组织线缆,每交换机到 $d$ 个邻居的线缆长度方向各异

适用场景与局限

核心问题:SlimFly 适合和不适合哪些并行策略和部署场景?

适用

  1. 延迟是首要目标 (直径 2 最优)
  2. 规模恰好匹配离散点
  3. 流量模式接近均匀
  4. 成本约束严格 (比 Fat-tree 少 25-40%)

局限

  1. 规模受限于特定素数 (338 → 578 → 1682 间隔大)
  2. 布线非结构化,运维困难
  3. 对抗性流量弱于 Fat-tree
  4. 路由表需预计算 ($O(N)$,不如前缀匹配可扩展)
  5. 增量扩展不可行 ($q$ 变化需重构拓扑)

实际部署:为什么没有?

无大规模商业部署。工程化障碍:

  1. 交换机 ASIC 不支持:商用 ASIC (Broadcom/Mellanox) 针对 Fat-tree/Clos 层级优化,不支持 SlimFly 预计算路由表
  2. 非结构化布线无法管理:数据中心标准线缆管理 (线槽、标签、对称走线) 依赖物理规律,SlimFly 在物理空间无规律
  3. 商业生态缺失:SDN 控制器 / 监控 / 故障诊断工具均不支持非层级拓扑
  4. AI 集群流量不匹配:MoE AllToAll 是不均匀流量,SlimFly 缺乏完善分析数据

学术意义:证明在直径和成本方面存在比 Fat-tree 更优的拓扑,建立"接近 Moore 界"作为网络拓扑优化的理论标杆。

演进:ETH Zurich 同一研究组 (Hoefler 团队) 在 SlimFly 基础上提出 PolarFly (SC 2022)[4],放宽素数约束 (任意素数幂 vs $q \equiv 1 \pmod 4$),可选规模点约 SlimFly 3 倍,性能相当。两者面临相同工程化障碍。

Takeaway

知识点核心结论
设计目标直径 2 + 接近 Moore 界节点数
Moore 界$d^2 + 1$ 是直径 2 的理论上限
MMS 图89% Moore 界效率,远高于随机图 70%
构造基于 $\text{GF}(q)$ 二次剩余的代数公式,$q$ 素数且 $\equiv 1 \pmod 4$
规模$N_s = 2q^2$,离散点 50 → 338 → 578 → 1682
度数$d = \frac{3q-1}{2}$
与 Fat-tree少 25-40% 交换机和线缆,直径低 2-4
$q = 5$与 1960 Hoffman-Singleton 图同构
部署现状无大规模商用,ASIC / 布线 / 路由 / 流量四大障碍

参考资料

  1. Besta M. and Hoefler T., Slim Fly: A Cost Effective Low-Diameter Network Topology, SC 2014. https://doi.org/10.1109/SC.2014.34
  2. Hoffman A. J. and Singleton R. R., On Moore Graphs with Diameters 2 and 3, IBM J. Research and Development 1960. https://doi.org/10.1147/rd.45.0497
  3. McKay B., Miller M., Siran J., A Note on Large Graphs of Diameter Two and Given Maximum Degree, J. Combinatorial Theory Series B 1998. https://doi.org/10.1006/jctb.1998.1828
  4. Lakhotia K. et al., PolarFly: A Cost-Effective and Flexible Low-Diameter Topology, SC 2022. https://doi.org/10.1109/SC41404.2022.00017