Jellyfish

基于随机正则图的无层级拓扑，以近 Ramanujan Expander 特性挑战 Fat-tree

核心要点：

Singla et al. NSDI 2012 提出，挑战 Fat-tree 的"层级必要性"

拓扑是随机正则图 (Random Regular Graph)，每交换机 $d$ 端口随机连接

基于 Expander 图理论，谱间隙 $d - \lambda_2$ 接近 Alon-Boppana 界 $2\sqrt{d-1}$

相同设备成本下比 Fat-tree 多 ~25% 服务器

直径 $O(\log N / \log d)$，割集 $\geq \frac{Nd}{4} b$ （高概率）

任意增量扩展，无层级约束

无任何商业部署（布线随机不可标准化是核心障碍）

核心论文：[Singla et al., Jellyfish: Networking Data Centers Randomly, NSDI 2012][1]

为什么挑战 Fat-tree？

Fat-tree 的层级结构引入固有限制：

层级瓶颈：割集带宽受限于 Core 层数量，增加带宽只能增加整层
固定拓扑：交换机角色固定 (Core/Agg/Edge)，增量扩展必须按层
端口利用率低：Edge 一半端口朝下一半朝上，分配由层级固定

Jellyfish 核心观察：Fat-tree 的层级不是物理必须，而是人为设计选择。放弃层级让交换机随机连接，同样设备能获得更好性能。

随机正则图怎么构造？

$N$ 台交换机，每台 $d$ 端口随机连其他交换机，形成随机 $d$-正则图。

正则：所有节点度数相同（Fat-tree 不是，Ring/Torus 是）。随机：连接不由确定规则决定，从满足条件的所有图中随机选一个。

构造算法：

输入: N 台交换机，每台 d 个空闲网络端口
输出: 随机 d-正则图

1. 将 N×d 个空闲端口放入候选池
2. 重复直到候选池为空:
   a. 随机选两个属于不同交换机的端口
   b. 若两交换机已有连接 (重边)，跳过重选
   c. 否则建立连接，从池移除两端口
3. 若剩余少量无法配对的端口:
   随机选已有边断开，与剩余端口交叉重连 (swap)

swap 操作：假设最后剩余交换机 A 的一端口无法配对。随机选不涉及 A 的边 B—C，断开，连接 A—B 和 A—C。保证所有端口最终被使用。

为什么不同随机实例性能相似？

几乎所有随机正则图都是好的网络拓扑。这是概率论的定理，不是运气。

随机 $d$-正则图以高概率 (随 $N$ 增大趋近 1) 具有：

直径 $O(\log N / \log d)$
割集带宽 $\geq \frac{Nd}{4} \cdot b$ （接近理论最优）
良好路径多样性

Expander 图和谱间隙是什么？

Expander = "高度连通"的稀疏图，任何子集邻居都"足够大"。

扩展比 (expansion ratio):

$$\begin{equation} h(G) = \min_{|S| \leq N/2} \frac{|\partial S|}{|S|} \label{eq:topo-jellyfish-cheeger} \end{equation}$$

$S$ 是节点子集，$\partial S$ 是 $S$ 到外部的边集。$h(G)$ 越大连通性越好，割集带宽越高。

谱间隙 (Spectral Gap)：邻接矩阵特征值 $\lambda_1 \geq \lambda_2 \geq \cdots$，$\lambda_1 = d$，谱间隙 = $d - \lambda_2$:

谱间隙	含义	网络性质
大 (接近 $d$)	图高度连通，好 Expander	割集高，路径多样，流量均匀
小（接近 0）	图近似可分两半	存在瓶颈

@tbl-topo-jf-spectral 谱间隙含义

Cheeger 不等式联系谱间隙与扩展比：

$$\begin{equation} \frac{d - \lambda_2}{2} \leq h(G) \leq \sqrt{2d(d - \lambda_2)} \label{eq:topo-jellyfish-cheeger-bound} \end{equation}$$

随机正则图为什么是近最优 Expander？

Alon-Boppana 界：对任意 $d$-正则图，$\lambda_2 \geq 2\sqrt{d-1} - o(1)$。达到下限的图叫 Ramanujan 图 — 理论最好 Expander。

关键定理：随机 $d$-正则图以高概率是近 Ramanujan 图 ($\lambda_2$ 接近 $2\sqrt{d-1}$)[2][3]。

这是 Jellyfish 性能优势的数学基础：随机构造几乎自动产生近最优 Expander。

Fat-tree 为什么不是好 Expander？

Core 层形成天然割集瓶颈：沿 Core 层切开，横跨链路数完全由 Core 层数量决定。增加 Edge 不会改善 — 层级限制信息只能"上行 → Core → 下行"，不能同层横向传播。

随机正则图无此问题：信息可沿任意方向传播，不存在结构性瓶颈。

关键参数和与 Fat-tree 对比

核心问题：Jellyfish 的交换机数、度数、直径、割集等关键参数是多少？相同设备成本下比 Fat-tree 多多少服务器？

属性	值
交换机总数	$N$ （任意）
服务器总数	$N \cdot r$ ($r$ = 每交换机服务器端口)
网络度数	$d = k - r$ ($k$ 总端口)
直径	$O(\log N / \log d)$ （高概率）
割集带宽	$\geq \frac{Nd}{4} \cdot b$ （高概率）
链路总数	$\frac{Nd}{2}$
Vertex-Transitive	No （随机构造每实例不同）

@tbl-topo-jf-params Jellyfish 关键参数

相同设备 ($N$ 台 $k$-port 交换机) 对比 (@tbl-topo-jf-vs-ft):

属性	Jellyfish	Fat-tree
可连服务器数	$N \cdot r$ ($r$ 灵活)	固定（层级决定）
割集带宽	$\sim \frac{Nd}{4} b$ （接近最优）	$= \frac{N_{\text{server}}}{2} b$ （全割集）
扩展方式	任意增加交换机	必须按层扩展
拓扑确定性	随机（每次不同）	确定
布线结构	无	层级结构化

@tbl-topo-jf-vs-ft Jellyfish vs Fat-tree

核心发现 (NSDI 2012): 相同设备成本下，Jellyfish 支持的服务器数比 Fat-tree 多约 25%，或等服务器数时割集带宽更高。

拓扑特性

核心问题：Jellyfish 的增量扩展和非 Vertex-Transitive 这两个特性各自对工程有什么影响？

增量扩展：理论上支持任意增量。新增交换机时随机选若干现有交换机断开一条边（释放端口），与新交换机连接。不需要改变整体结构（本来就没有结构）。实际操作中每次扩展需物理断开重连若干线缆。

非 Vertex-Transitive：随机构造意味每实例具体连接不同，不同节点局部结构不完全对称。但统计意义上对称性足够好 — 任何节点的"期望"局部结构相同。

与其他非 Fat-tree 拓扑的关系

核心问题：Jellyfish 与 Xpander/SlimFly/Fat-tree 在构造方式、Expander 质量和确定性上如何排布？

拓扑	构造方式	Expander 质量	确定性
Jellyfish	随机正则图	近最优（近 Ramanujan）	随机
Xpander	确定性 lifting	好（略低于随机）	确定
SlimFly	代数构造（MMS 图）	好	确定
Fat-tree	层级规则	差（层级瓶颈）	确定

@tbl-topo-jf-vs-others Jellyfish 与其他拓扑对比

Jellyfish 理论上最优，但"随机"是它最大的工程障碍。Xpander 用确定性构造获得接近随机图的 Expander 性质。

适用场景与局限

核心问题：Jellyfish 适合和不适合哪些并行策略和部署场景？

适用（理论上最优，实际均无部署）：

设备预算固定，最大化服务器数（比 Fat-tree 多 25%）
流量模式均匀随机
需要灵活端口分配 ($r$ 自由选择)

局限：

布线无规律，无法用标准线槽/标签管理
每次构造不同，无标准布线图，每部署独特
路由需全网计算 ($O(N)$ 转发表)，用 K-Shortest Paths 等非标准算法
故障诊断困难（任何链路断开影响需重新计算）
商用生态零支持（ASIC / SDN / 监控均针对结构化拓扑）

实际部署：为什么没有？

无任何商业部署。工程化障碍不在性能，在可操作性：

Fat-tree 布线有标准化方案（线缆长度、颜色编码、端口映射表），技术人员可按图施工
Jellyfish 布线"随机" — 每根线缆起点终点由随机算法决定，施工 / 验证 / 变更都无法标准化

学术价值：核心贡献不是提供可部署拓扑，而是证明 Fat-tree 不是理论最优 — 存在成本更低、割集带宽更高的方案。推动后续：

Xpander：确定性构造获得接近随机图性能，保持布线可预测
SlimFly / PolarFly：代数构造在直径和成本上超越 Fat-tree

Takeaway

知识点	核心结论
设计动机	Fat-tree 的层级是人为设计，不是物理必须
构造	随机 $d$-正则图，随机配对空闲端口
性能保证	随机正则图以高概率是近 Ramanujan Expander
谱间隙	$d - \lambda_2$ 接近 Alon-Boppana 界 $2\sqrt{d-1}$
vs Fat-tree	相同成本下多 25% 服务器，无结构性瓶颈
拓扑性质	非 Vertex-Transitive，每实例不同
部署现状	零商用部署，布线随机不可标准化
学术价值	证明 Fat-tree 非最优，启发 Xpander/SlimFly/PolarFly

参考资料

Singla A. et al., Jellyfish: Networking Data Centers Randomly, NSDI 2012. https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final148.pdf
Friedman J., A Proof of Alon's Second Eigenvalue Conjecture, 2008. https://doi.org/10.1090/memo/0910
Hoory S., Linial N., Wigderson A., Expander Graphs and their Applications, 2006. https://www.cs.huji.ac.il/~nati/PAPERS/expander_survey.pdf

为什么挑战 Fat-tree？​

随机正则图怎么构造？​

为什么不同随机实例性能相似？​

Expander 图和谱间隙是什么？​

随机正则图为什么是近最优 Expander？​

Fat-tree 为什么不是好 Expander？​

关键参数和与 Fat-tree 对比​

拓扑特性​

与其他非 Fat-tree 拓扑的关系​

适用场景与局限​

实际部署：为什么没有？​

Takeaway​

参考资料​