跳到主要内容

MoE EP alltoallv 拓扑与路由的性能评估与部署推荐

日期:2026-06-03 (v3 数据集)

实验设计MoE EP alltoallv 拓扑与路由的性能评估:实验设计

KBG

MoE 推理的通信开销与优化动机:

  • EP alltoallv 是主要通信开销,V4 靠计算重叠隐藏它:MoE 推理中 EP 层的 dispatch / combine 两次 alltoallv 占据主要互联流量;V4 把两次通信与专家计算重叠,能否隐藏取决于通信耗时与算力-带宽比。
  • 优化通信降低硬件门槛:通信耗时越短,隐藏所需的互联带宽阈值越低;优化 alltoallv 让更低互联带宽的硬件也能维持端到端性能。
  • 通信耗时对拓扑、路由、摆放、偏度敏感:V4 取消 V3 "≤4 node 路由约束" 后,通信矩阵从均匀变稀疏 + 长尾,放大了 alltoallv 对这几个维度的敏感性。

在此背景下,部署选型缺三块数据:

  • 拓扑、路由、摆放选型无数据:fat-tree / torus / single-switch 拓扑族 × shortest_path / ECMP / dmodk / DOR 路由 × 专家摆放 (compact / interleave) 在 32 / 64 芯片规模 EP alltoallv 上的相对优劣无公开实测,部署架构师缺量化依据。
  • EPLB 收益与偏度关系无数据:专家负载偏度多大时 EPLB (冗余放置) 才值得开、收益几何,业界引用的 "EPLB 2-3×" 对应何种偏度,未见量化。
  • 结论适用边界无数据:上述选型结论在什么数据量、规模、通信方向下成立,边界未划定。

TASK

本研究在 32 / 64 芯片规模上,用 G5 仿真扫描多维通信矩阵 × 真实可部署的拓扑 × 各拓扑适配的路由 (含专家摆放子维度),测量 per-chip 平均出向带宽,产出每个 (数据量,形态,偏度) 场景下的 (拓扑,路由) 推荐组合及适用范围。

KP

在 32 / 64 芯片规模的 V4 EP alltoallv 上,哪种真实可部署的 (拓扑,路由,专家摆放) 组合与 EPLB 开关给出最大 per-chip 出向带宽,且该结论在哪些偏度、数据量、规模、方向范围内成立?

KO

量化真实可部署拓扑 × 各拓扑适配路由在不同形态 / 偏度 / 数据量 / 规模 / 专家摆放下的 per-chip 平均出向带宽 (GB/s),输出推荐表 + 各结论的适用范围。

测量指标定义:per-chip 平均出向带宽

$\begin{equation} \text{per-chip BW} = \frac{\sum_{i,j} C[i][j]}{N \cdot T_{\text{a2av}}} \label{eq:a2av-perchip-bw} \end{equation}$

即矩阵总字节数除以 N 个 chip 与 alltoallv 完成时间的乘积。此口径是 per-chip 平均,不是 NCCL busBw = algBw × (N-1)/N 的全局单值定义,比较 NCCL 报告时不要直接套用。本报告所有表格列名中的 "BW" / "BusBW" 均指上述定义。

实测数据按 KA 分节呈现 (各 KA 的「数据」子节);主推荐汇总见

KT

本研究在平坦单层 c2c 平台 (link 400 GB/s,不模拟 NVLink + RDMA 两段非对称) 上以 G5 仿真扫多维网格,用 per-chip 平均出向带宽量化优劣。核心分析框架是两个瓶颈:alltoallv 完成时间 $T_{\text{a2av}}$ 由网络传输时间与接收串行时间中较慢者决定。

$\begin{equation} T_{\text{a2av}} = \max(T_{\text{网络传输}},\ T_{\text{接收 incast}}) \label{eq:a2av-bottleneck} \end{equation}$

所有扫描维度都落到这两侧之一,哪一侧先触顶决定该场景的结论:

  • 网络传输侧 (决定 $T_{\text{网络传输}}$):拓扑直连度、路由路径散布、专家摆放 (interleave 增跨网流量)、数据量 (alpha → bandwidth)、规模 (spine 数)
  • 接收 incast 侧 (决定 $T_{\text{接收 incast}}$):专家负载偏度、EPLB 冗余放置

三个 KA 按部署决策者的执行优先级展开:先定网络传输侧的 (拓扑,路由) 选型 (KA1,含专家摆放子维度),再按工作负载偏度决定是否开 EPLB (KA2),最后理解结论在数据量 / 规模 / 方向上的适用边界 (KA3)。

扫描的拓扑按"现代 32 / 64 芯片规模真实部署存在性"分两组:

  • 真实可部署拓扑 (single-switch / torus / fat-tree):现代生产系统在 32 / 64 芯片规模实际部署的拓扑,部署推荐结论只引这一组
  • 学术对照拓扑 (dragonfly / hypercube / hyperx / ring):现代生产部署罕见或不存在的拓扑,数据仅用于路由算法理论行为参考,不进部署推荐

扫描的关键维度:流量形态 (完美均衡 / 未开 EPLB / 开启 EPLB) × 专家负载偏度连续 1.0–10.0 共 13 点 (真实区间 1.0–3.0 密采,主线 2.0;反事实 3–10 用于 EPLB 上限) × 数据量 tokens_per_rank {1..1024 共 20 档加密} × 拓扑 × 路由 × 摆放 (compact / interleave) × EP {N, N/2, N/4} × 规模 {32, 64} × 方向 {dispatch, combine}。v3 数据集共约 3900 cells。

路由算法对比基线选用 ECMP 而非 shortest_path:单 Dijkstra shortest_path 在多 spine fat-tree 上退化为单 spine 使用,真实生产部署默认 ECMP 散布到多 spine,用 SP 作 baseline 会夸大其他路由的相对优势。switch_latency / top_k / ECMP max_paths / torus shape / fat-tree osr 等二阶子维度的扫描结果见限制段。

KA1 — 拓扑与路由决定带宽上限

结论

真实可部署拓扑里,网络传输能力决定带宽上限,主选型是拓扑与路由两层;专家摆放是第三个影响网络传输的因素 (纠正旧报告"摆放无差异"的误判,见下"摆放"项):

  • 拓扑:torus (每芯片直连 6 邻居,网络带宽充足) 完美均衡下接近物理上限 (372 / 400 = 93% 利用率),fat-tree (每芯片单上行口) 受单 uplink 限制 (294 / 400 = 73%), torus 比 fat-tree 高 1.27×。single-switch 是 1-hop 直达,带宽上限即 chip 出向 line rate 减 incast 损失。
  • 路由ECMP 在 N=32/64 全部测试 cell 中均未输给其他路由 (其他路由要么持平要么劣 ≥ 5%),是工程默认。shortest_path 在多 spine fat-tree 上退化为单 spine,只达 ECMP 的 35% (104 vs 294,差 2.82×)。dmodk 在 N ≥ 64 + 完美均衡 / EPLB 已开场景下 +29%。
  • 摆放EP < N (多组) 时 compact 比 interleave 高 2-3× (EP=16 时 185 vs 57 = 3.3×, EP=32 时 221 vs 118 = 1.9×);EP = N (单组,无摆放自由度) 时两者相同。interleave 把专家小组打散到全网,增加跨 leaf 流量,在网络传输侧成为瓶颈。

数据

真实可部署 (拓扑,路由) 在三种流量形态下的网络带宽利用率热力图 (N=64, tok=256,颜色为占 400 GB/s line rate 的百分比)。fat-tree shortest_path 一行偏红 (24-26%) 显示 SP 退化,torus / fat-tree 的 dmodk / DOR 在完美均衡与开启 EPLB 下满格 (93-95%)。@fig-a2av-shape-heatmap

拓扑路由完美均衡未开 EPLB (偏度 2.0)开启 EPLB
fat-tree-k16shortest_path104.192.7103.5
fat-tree-k16ECMP293.7250.2289.6
fat-tree-k16dmodk380.2237.2375.7
torus-4x4x4shortest_path152.7133.9152.6
torus-4x4x4ECMP372.1210.9361.8
torus-4x4x4DOR379.2217.2359.5

@tbl-a2av-topo-routing-n64 64 芯片下真实可部署 (拓扑,路由) × 3 形态的 per-chip 出向带宽 (GB/s, heavy / tok=256)

对比项倍数场景
torus ECMP / fat-tree ECMP1.27×完美均衡
torus ECMP / fat-tree ECMP0.84×未开 EPLB (偏度 2.0)
torus ECMP / fat-tree ECMP1.25×开启 EPLB
fat-tree dmodk / fat-tree ECMP1.29×完美均衡
fat-tree ECMP / fat-tree SP2.82×完美均衡

@tbl-a2av-routing-ratios 拓扑间与路由间的关键倍数关系 (N=64)

专家摆放 (compact / interleave) 对 per-chip 带宽的影响,随 EP 组数变化 (N=64, ECMP,偏度 2.0 未开 EPLB, tok=256)。EP &lt; N 多组时 compact 高于 interleave (EP=16 为 185 vs 57, 3.3×);EP=64 单组无摆放自由度,两者重合于 250。@fig-a2av-ep-mapping

EP (组数)compact (GB/s)interleave (GB/s)compact / interleave
16 (4 组)185.256.83.26×
32 (2 组)221.4118.41.87×
64 (1 组)250.2250.41.00×

@tbl-a2av-placement N=64 fat-tree-k16 ECMP 下专家摆放对带宽的影响 (偏度 2.0, tok=256)

分析

fat-tree 网络先瓶颈:每芯片仅 1 个 uplink 接 leaf switch,跨 leaf 流量争 8 个 spine 的容量。完美均衡下 busbw 已卡在 294 GB/s (< 物理上限 400 GB/s),瓶颈在网络结构。

torus 网络充足:每芯片直连 6 邻居 (3 维双向),单方向可用网络带宽 400 GB/s,网络不瓶颈,完美均衡接近物理上限 (372 GB/s)。

SP 退化:单 Dijkstra shortest_path 在多 spine fat-tree 上每对源-目的只走固定一条等长路径,实际只用单 spine; ECMP 用 hash 把流量散到 32 条等长路径上,故 ECMP 比 SP 高 2.82×。生产部署默认 ECMP,这是路由对比的 fair baseline。

摆放机理:compact 把同一 EP 组的专家放在物理相邻 chip,组内流量就近、组间隔离;interleave 按 chip 顺序散布,跨 leaf 流量增加,争用 spine。EP = N 时只有 1 个组,无摆放自由度,两者退化为同一矩阵 (250.2 = 250.4) —— 这解释了为何只看 EP=64 切片会误判"摆放无差异"。

适用范围

  • 拓扑可达性:torus 4x4x4 需要 chip-to-chip 直连 6 邻居的专用互联 (TPU v4 单 cube / OCS 等);商用 GPU / AI 加速器一般不可达,此时 fat-tree 是次选
  • 路由规模 scaling:dmodk vs ECMP 的差距随芯片数扩大 (N=32 fat-tree dmodk / ECMP = 1.00, N=64 = 1.29),外推 ≥256 芯片收益可能进一步增大,本研究未验证
  • 摆放在 EP=N 下不可见:若部署 EP = 芯片数 (单组),摆放维度无差异;EP < 芯片数 (多组) 时必须选 compact
  • 模型 top_k 差异影响拓扑倍数: torus/fat-tree 倍数 (ECMP) 随 top_k 增大缩小 — k4=1.45, k6=1.27, k8=1.23 (完美均衡)。高 top_k 模型矩阵更稠密,fat-tree 更接近 torus,拓扑选择重要性降低
  • torus 形状选择:同 N=64 下 cube 形 (4x4x4) 优于扁平形 (2x4x8) 在完美均衡场景 ECMP +29% / DOR +46%,因 cube 直径更小;但 incast 主导时差异消失

KA2 — 专家负载偏度决定 EPLB 收益

结论

接收端 incast (热门专家所在 chip 接收远超均值流量,接收串行成 critical path) 是第二个瓶颈,EPLB 不是恒定收益,收益受专家负载偏度决定。在业界实测偏度区间 (NVIDIA TRT-LLM DeepSeek EP32 (max−mean)/mean=1.56 换算 RX max/mean=2.56[1], DeepSeek EPLB ~2.0[2];主线取下沿 2.0) 下,EPLB 提升 fat-tree 1.16× / torus 1.72× (有限);偏度升到 2.6 (NVIDIA 换算上沿) 收益 1.35× / 2.23×;偏度 3.0 后放大到 ≥1.6×;偏度 5.0 收益 3-4×;偏度 10.0 收益 7-9× (后两档属反事实假设)。

关键反例:未开 EPLB (偏度 2.0) 时 torus 明显劣于 fat-tree (210.9 vs 250.2 = 0.84×) —— torus 网络充足让接收 incast 直接成 critical path, fat-tree 因网络先瓶颈反而对 incast 不敏感。必须先开 EPLB,才能享受 torus 的网络优势。

数据

EPLB 收益随专家负载偏度的变化 (N=64, ECMP, tok=256)。左:per-chip 带宽,虚线 S1 未开 EPLB 随偏度塌陷,实线 S2 开启 EPLB 基本持平;绿带为业界真实未均衡区间 2.0-2.6,红虚线为主线 2.0。右:EPLB 增益 (S2/S1), torus 在偏度 10 达 9×,真实区间内 fat-tree 1.16-1.35× / torus 1.72-2.23×。@fig-a2av-skew-curve

偏度 RX max/meanfat-tree-k16 S1 / S2 / 提升torus-4x4x4 S1 / S2 / 提升业界对应
1.6271.4 / 293.1 / 1.08×256.6 / 374.1 / 1.46×部分均衡对照
2.0 (主线)250.2 / 289.6 / 1.16×210.9 / 361.8 / 1.72×DeepSeek EPLB 实测下沿
2.6215.9 / 292.1 / 1.35×166.1 / 370.4 / 2.23×NVIDIA 换算 (1.56→2.56) 上沿
3.0181.5 / 292.9 / 1.61×144.7 / 353.8 / 2.45×EPLB 必要性拐点
5.099.0 / 294.0 / 2.97×83.9 / 357.8 / 4.27×反事实场景
10.042.2 / 294.9 / 7.00×39.7 / 374.7 / 9.45×反事实场景

@tbl-a2av-eplb-skew-curve EPLB 收益随专家负载偏度的曲线 (N=64, ECMP, tok=256; S1 = 未开 EPLB, S2 = 开启 EPLB 12.5% 冗余)。偏度 1.0–10.0 连续扫描 13 点,主线 2.0。完美均衡上界:fat-tree-k16 = 293.7 GB/s, torus-4x4x4 = 372.1 GB/s。

分析

EPLB 缓解的是接收端 incast 瓶颈。在主线偏度 2.0 下接收 incast 2.0× 均值,接收时间尚未远超网络瓶颈 (fat-tree 网络先瓶颈,torus 接近上限),EPLB 收益有限 (fat-tree 1.16×, torus 1.72×)。偏度增大后接收时间线性放大,超过网络瓶颈后 EPLB 收益从偏度 3 的 1.6× 升到偏度 10 的 9×。

拓扑差异:torus 对偏度敏感度约 2× 于 fat-tree (同偏度下 EPLB 收益更大),因为 torus 网络带宽充足,接收 incast 直接成 critical path; fat-tree 网络先瓶颈,接收 incast 收益部分被网络瓶颈稀释。

适用范围

  • 业界真实未均衡 (偏度 2.0-2.6):EPLB 收益 fat-tree 1.16-1.35×、torus 1.72-2.23× (主线 2.0)。提升幅度有限,仅在 torus 这种网络充足拓扑下显现可观收益
  • EPLB 必要性拐点 (偏度 ≈ 3.0):超过此值 EPLB 收益放大到 ≥1.6×,适用于"不做 EPLB 的 baseline"或异常 workload (突发热点)
  • 反事实极端偏度 (≥5.0):业界无公开实测,仅作 EPLB 上限参考。旧报告引用的 "EPLB 2-3×" 对应偏度 5 左右,是反事实假设
  • DeepEP / EPLB 实现:真实使用的 redundant placement 比本研究的简化对照更精细,实测收益可能略高于本表

KA3 — 数据量、规模、方向划定结论适用边界

结论

网络传输与接收两侧的差异只在足够数据量下显现,随规模放大,在两个方向上镜像

  • 数据量:小 batch (tok < 64) 时所有路由 / 拓扑都在 alpha-bound 区 (网络启动 + 包头开销主导),选型差异消失;tok ≥ 256 才撑开差异
  • 规模:dmodk 相对 ECMP 的收益随规模放大 — N=32 完美均衡 dmodk 与 ECMP 持平 (419 vs 419), N=64 拉开到 1.29×
  • 方向:combine 是 dispatch 的转置 (字节翻倍 BF16 vs FP8),流量发送集中、接收分散 (无接收 incast)。combine 的 per-chip 带宽对所有拓扑相同 (226.4 GB/s,仅随数据量变),因为瓶颈落在发送 chip 的 CDMA 出口 (芯片本地资源,拓扑无关),而非网络;dispatch 的接收 incast 瓶颈在网络汇聚 (拓扑相关)。含义:拓扑选型只改善 dispatch, combine 受芯片出口限制,换拓扑不改善,故 (拓扑,路由) 推荐只看 dispatch

数据

per-chip 带宽随数据量 tokens_per_rank 的变化 (N=64,偏度 2.0 未开 EPLB, dispatch)。橙色带为 alpha-bound 区 (tok ≤ 64),此区路由 / 拓扑曲线重叠;tok ≥ 256 后 fat-tree dmodk / torus 各路由才分开。@fig-a2av-tok-curve

tokens_per_rankfat-tree-k16 ECMP (GB/s)torus-4x4x4 ECMP (GB/s)
11030
1677129
64116173
128131177
256250211
512344266
1024415321

@tbl-a2av-tok-curve 数据量曲线:N=64 ECMP 未开 EPLB 时 per-chip 带宽随 tokens_per_rank 的变化 (GB/s)

N=32 与 N=64 的数据量曲线对比 (偏度 2.0 未开 EPLB, dispatch)。两规模在小 batch 段重合,大 batch 段 N=64 的拓扑 / 路由曲线分离比 N=32 更大,显示规模放大选型差异。@fig-a2av-tok-scale

N完美均衡 dmodk完美均衡 ECMPdmodk / ECMP
32 (fat-tree-k8)419.8419.81.00×
64 (fat-tree-k16)380.2293.71.29×

@tbl-a2av-scale-curve dmodk vs ECMP 的规模拐点 (heavy / tok=256,完美均衡)

dispatch 与 combine 方向的 per-chip 带宽对比热力图 (N=64,偏度 2.0, tok=256)。第三列为 combine / dispatch 比值。combine 对所有拓扑同值 (226.4,瓶颈在发送 CDMA 出口,拓扑无关),故比值随拓扑变只因 dispatch 分母变。@fig-a2av-dispatch-combine

拓扑dispatch 带宽combine 带宽combine / dispatch
fat-tree-k16 ECMP250.2226.40.90×
torus-4x4x4 ECMP210.9226.41.07×

@tbl-a2av-combine-mirror N=64 未开 EPLB (偏度 2.0) heavy 下 dispatch vs combine 带宽对比。combine 列所有拓扑同值 226.4,因 combine 瓶颈在发送 CDMA 出口 (芯片本地,拓扑无关),非数据错误。

分析

数据量拐点机理:tok < 64 时 alpha (网络启动 + 包头开销) 主导,路由几乎不可能产生差异 (流量太少,各路由都用得起所有路径);tok ≥ 256 后流量足够拥挤,路由的散布质量才显现。

规模拐点机理:fat-tree-k8 (4 spine) ECMP 已能填满 spine 容量;fat-tree-k16 (8 spine) ECMP hash 在 spine 间分布不够均匀,dmodk 显式公式才能压满每个 spine。规模越大 spine 越多,dmodk 优势越大。

方向不对称机理:dispatch 接收 incast (少数 hot_dst 收得多),瓶颈在接收侧网络汇聚,随拓扑入边数变 (torus 6 / fat-tree 1) → 拓扑相关。combine 是 dispatch 转置,发送集中、接收分散 (无接收 incast),瓶颈转到发送 chip 的 CDMA 出口 (芯片本地资源,拓扑无关) → 所有拓扑同值 226.4 GB/s,仅随数据量变。含义:换拓扑只改善 dispatch 方向,combine 受发送出口限制不随拓扑变;故 (拓扑,路由) 推荐以 dispatch 为准。

适用范围

  • 小数据量 (tok ≤ 64) alpha-bound 区对 switch latency 敏感:fat-tree light batch 下 switch_latency 从 100ns 增到 2000ns, busbw 降 27%; torus 直连无 switch 不受影响。decode heavy (tok ≥ 128) 几乎不敏感 (见限制段)
  • 规模外推:dmodk vs ECMP 的差距随芯片数扩大,外推 ≥ 256 芯片收益可能更大,本研究上限仅到 64
  • 方向假设:结论仅在"combine 严格转置"假设下成立。真实 DeepEP combine 可能有额外 reduce 操作,实际带宽可能略低
  • 学术拓扑无推荐:hypercube / dragonfly / hyperx / ring 数据仅用于路由算法理论参考,不进部署推荐 (见 design.md 拓扑覆盖分层)

部署建议

各场景可部署推荐组合 (N=64, heavy / tok=256, ECMP baseline)

部署阶段偏度首选 (硬件可达时)次选 (商用通用)per-chip BW (GB/s)
训练初期 / 完美均衡1.0torus-3D 4x4x4 + ECMPfat-tree-k16 + dmodk372 / 380
实际部署,未开 EPLB2.0fat-tree-k16 + ECMPtorus 此时 0.84× 劣,须先开 EPLB → 见下行250
开启 EPLB2.0torus-3D 4x4x4 + ECMPfat-tree-k16 + dmodk362 / 376
异常 workload / 未做 EPLB3.0+torus-3D 4x4x4 + ECMP + 开 EPLBfat-tree-k16 + ECMP + 开 EPLB见 KA2 偏度曲线

@tbl-a2av-recommendation 各部署阶段的推荐 (拓扑,路由) 组合。所有 EP < 芯片数 (多组) 部署一律选 compact 摆放 (见 KA1)。

torus-3D 4x4x4 对应 TPU v4 单 cube 硬件,chip-to-chip 直连 6 邻居需要专用互联。商用 GPU / AI 加速器在不具备此能力时,次选 fat-tree。

优化优先级 (业界真实偏度 2.0, N=64, ECMP 路由 baseline)

优化项实测收益触发条件实施位置
fat-tree 路由从 SP 换 ECMP2.82×当前用 SP 的部署软件层 (NCCL 配置)
EP < N 时摆放从 interleave 换 compact约 1.9-3.3×多组 EP 部署软件层 (专家放置策略)
开启 EPLB (torus)1.72×torus 部署 + 偏度 ≥ 2.0软件层 (DeepEP / EPLB 库)
拓扑选 torus (vs fat-tree)1.25× (S2 已开 EPLB) / 0.84× (S1 未开 EPLB,反而劣势)硬件可达专用直连 + 已开 EPLB硬件层 (部署决策)
fat-tree 上 ECMP → dmodk1.29×N ≥ 64 + (完美均衡 OR 已开 EPLB) + tok ≥ 256软件层 (G5 已支持)
开启 EPLB (fat-tree)1.16×fat-tree 部署 + 偏度 ≥ 2.0软件层 (DeepEP / EPLB 库)

@tbl-a2av-priority alltoallv 带宽优化的优先级 (真实偏度 2.0 下)

与旧报告差异:旧报告写 "开启 EPLB 2-3×",基于偏度 5+ 的反事实假设。真实部署偏度 2.0-2.6 下 EPLB 提升 1.16-2.23× (与拓扑相关)。

部署优化执行顺序:软件层最直接见效是"如果还在用 SP 换 ECMP"(2.82×) 与"多组 EP 用 compact 摆放"(2-3×); torus 部署上 EPLB 提升 1.72×, fat-tree 部署上仅 1.16×。关键:未开 EPLB 时 torus 明显劣于 fat-tree (0.84×) —— 必须先开 EPLB 才能享受 torus 的网络优势 (见 KA2)。

限制与未来工作

  1. 未模拟 NVLink + RDMA 两段非对称带宽:本研究用平坦单层 c2c (400 GB/s 一致)。真实部署 NVLink (~160 GB/s 节点内) + RDMA (~50 GB/s 跨节点) 两段差异,DeepEP normal kernel 的转发优化未覆盖,实际部署 fat-tree 跨节点段会成为新瓶颈

  2. 未模拟 wave-scheduled fine-grained EP:V4 实际把 alltoallv 切 8-16 wave,每 wave 矩阵更小。本研究单次大矩阵 = 多 wave 累加上界,实际单 wave 行为可能不同

  3. EPLB 放置策略只测 naive / 单冗余度:DeepEP 真实使用的"node-limited 路由 + redundant placement"是更复杂的拓扑感知放置,本研究的开启 EPLB 是简化对照,真实 EPLB 收益可能略高

  4. EPLB 偏度区间数据已补齐 (旧版缺口已闭合):偏度 1.0–10.0 连续 13 点,每点 S1 / S2 配对,KA2 收益曲线在主线 2.0 与真实区间 2.0–2.6 均有实测点,不再靠外推

  5. batch 维度已加密至 20 档 (旧版 11 档已加密):alpha → bandwidth 转折点 (tok=64 附近) 已平滑可见,含 {3,6,12,24,48,96,192,384,768} 等中间档

  6. hyperx 未接入 DOR 路由:hyperx 上 DOR 理论可用,本研究只测了 shortest_path / ECMP, hyperx 路由对比不完整

  7. 芯片数上限仅到 64:dmodk vs ECMP 的差距随芯片数扩大,外推 ≥ 256 芯片收益可能更大,但本研究未验证

  8. 学术对照拓扑不进部署推荐:hypercube-6d / dragonfly / hyperx / ring 的数据仅用于路由算法理论行为参考,这些拓扑在现代 32 / 64 芯片生产部署中罕见或不存在 (见 design.md 拓扑覆盖分层)

  9. 极端偏度 (≥3.0) 是反事实场景:业界换算后的真实未均衡区间是 2.0-2.6 (NVIDIA (max−mean)/mean=1.56→max/mean=2.56, DeepSeek EPLB ~2.0),本研究的偏度 ≥ 3.0 数据用于刻画 EPLB 收益的上限和拐点,不代表生产部署的真实状态

  10. switch forwarding latency 敏感度:本研究主网格固定 1000 ns (商用 ToR 量级)。扫描 {100, 300, 500, 1000, 2000} ns 显示,decode heavy (tok=256) 下 4 个 KA 主结论几乎不变,仅小数据量 alpha-bound 区敏感 (fat-tree tok=64 从 sw100 → sw2000 降 27%, torus 不受影响)。在 cut-through 交换机 (~300 ns) 下 decode 段结论仍成立

    switch forwarding latency 敏感性 (N=64, ECMP)。左 tok=64 alpha-bound 区 fat-tree 随 latency 升高下降,右 tok=256 decode 段几乎不变;torus 直连无 switch 全程平直。@fig-a2av-sens-switch-latency

  11. ECMP max_paths 敏感度:本研究主网格 max_paths=32 (上限)。扫描 {4, 8, 16, 32} 显示 fat-tree-k16 上 busbw 完全不变 (完美均衡 294 ± 0.5;未开 EPLB 250 ± 0.5)。fat-tree-k16 只有 8 个 spine, max_paths=4 已能覆盖足够多等长路径。部署时硬件 ECMP table 设 4 即可,无需配 32

    ECMP max_paths 敏感性 (fat-tree-k16, N=64, tok=256)。max_paths 从 4 到 32 busbw 全程平直 (完美均衡 294 / 未开 EPLB 250),8 spine 下 max_paths≥4 已足够。@fig-a2av-sens-ecmp-paths

  12. 模型 top_k 敏感度:本研究主网格 top_k=6 (DeepSeek V4)。扫描 {4, 6, 8} 显示绝对带宽与 top_k 强相关 (k4 约打折至 63%, k8 约 1.5×),但 EPLB 提升倍数与拓扑相对优劣的结论方向不变,拓扑倍数随 top_k 增大而缩小

    top_k 敏感性 (N=64, ECMP, tok=256)。k4 / k6 / k8 下 torus 与 fat-tree 的带宽均随 top_k 上升,torus 始终领先但差距随 top_k 缩小。@fig-a2av-sens-topk

  13. fat-tree 超订比 osr=1:本研究只测严格 Clos (osr=1, d=u=k/2)。商用 2:1 / 3:1 超订部署受限于 d 必须整除 N 的几何约束,需独立设计新 (k, N) 组合评估。理论上超订使 fat-tree 跨 leaf 带宽折扣 1/osr, torus 不受影响

  14. single-switch 未进 KA 主对比:single-switch (大 NVSwitch / 单 spine 直挂) 是 1-hop 直达,带宽上限即 chip 出向 line rate 减 incast 损失,跟 fat-tree 跨 leaf / torus 多跳的路径长度对比不在同一维度。完整 single-switch 数据见 v3 数据集 (experiment alltoallv-topo-routing-v3, topo=single-switch)

参考资料

  1. NVIDIA TRT-LLM DeepSeek-V3 EP32 部署实测,来源见 MoE EP alltoallv 拓扑与路由的性能评估:实验设计 §流量形态 引用清单。
  2. SGLang DeepEP 部署博客,同上。