拥塞建模

突破 α-β 无竞争假设——在静态竞争与全包级仿真之间建模拥塞对通信延迟的定量影响

核心要点：

拥塞 ≠ 静态竞争：静态竞争是"带宽除流数"的线性分摊（03-扩展模型已覆盖），拥塞是队列累积导致的非线性延迟膨胀

排队论是起点：M/D/1 平均排队等待 = M/M/1 的 1/2，G/G/1 Kingman 近似在重流量（ρ > 0.85）下精度 < 10%

AI 训练流量不服从 Poisson：同步突发使到达变异系数 c_a² >> 1，排队论平均延迟低估 30-50%

流量模式决定拥塞形态：Incast 阶跃式坍塌，AllToAll 超线性退化，Ring 斜率增大，PP P2P 被波及

分段建模 + 经验修正因子是当前最优实践：低负载用裸 α-β，中度负载加排队修正，高负载用截断/吞吐模型

工业界不做显式延迟预测：Google Pathways Alma 是唯一公开了"拓扑+负载→延迟估计"的工业系统

设计动机

核心问题：α-β 模型的"无竞争假设"已经被 LoGPC 和 Fluid max-min（03-扩展模型）修正了——为什么还需要独立的拥塞建模？

静态竞争修正（LoGPC / Fluid）只能处理"带宽除流数"的线性分摊。它将有效带宽设为 β_eff = β / max(1, F/C)，隐含假设是：每条流均分链路带宽后，延迟按 T = α + M/β_eff 线性缩放。

这个假设在低-中度负载（ρ < 0.5）下成立——端口缓冲区未满，排队深度浅，各流公平均分带宽近似成立。但在中-高度负载（ρ > 0.5）下失效——缓冲区开始累积，排队延迟非线性增长，β_eff 不再只是 F 的函数，还依赖到达模式、缓冲区深度和队列调度策略。

拥塞建模的目标：在纯分析模型（α-β + 静态竞争修正）与全包级仿真（ns-3 / G5）之间，提供一种秒级代价的拥塞延迟估计方法，将中-高负载下的预测误差从 50-500% 压缩到 15-30%。

与已有文档的关系：

已有文档	覆盖范围	本文补什么
03-扩展模型	静态竞争（LoGPC F/C）、Fluid max-min	动态队列累积、排队论公式、拥塞非线性
05-多跳拓扑建模	多跳 α 累加、两层分层公式、Multi-Rail 粒度	拥塞下的每跳延迟膨胀系数
02-alpha-beta模型	无竞争 P2P 基础公式	拥塞场景下 α 和 β 的有效值退化

拥塞的物理机制

核心问题：队列是怎样累积的？拥塞为什么让延迟非线性膨胀？

从静态竞争到队列累积

静态竞争和拥塞是同一现象的两种时间尺度：

静态竞争             拥塞
←──────────→      ←────────────────→
带宽分摊             队列累积 + 延迟膨胀
(β_eff = β/F)      (W_q = f(ρ, c_a², c_s²))
ρ < 0.3            ρ > 0.5

静态竞争域（ρ < 0.3）：多条流共享链路，但总注入速率远低于链路容量。数据包到达后立即或几乎立即被发送，端口缓冲区接近空。有效带宽 ≈ β / F。
过渡域（0.3 < ρ < 0.7）：缓冲区偶尔非空，排队延迟开始出现但不持续。静态竞争公式开始低估真实延迟。
拥塞域（ρ > 0.7）：端口缓冲区持续有数据等待发送，排队延迟成为延迟的主导项。Incast 场景下缓冲区瞬间填满，延迟从"渐增"变为"阶跃"。

拥塞如何影响 α 和 β

在拥塞场景下，有效 α 和 β 不是常数，而是负载 ρ 的函数：

α_eff(ρ)：包含额外的排队等待时间 W_q。α_eff = α₀ + W_q(ρ)，其中 α₀ 是无竞争启动延迟。
β_eff(ρ)：若 ρ < 1 则仍为链路物理带宽（排队只增加延迟不减少吞吐）；若 ρ ≥ 1 且缓冲区有限则发生丢包/暂停，有效吞吐 < 链路容量。

关键洞察：拥塞主要膨胀 α（排队等待是"每条消息一次"的固定开销），对 β 的影响仅在饱和（ρ ≥ 1）后才显著。

缓冲区压力的级联效应

真实交换机缓冲区有限（InfiniBand 交换机典型 ~2-16 MB/port）。当缓冲区满时：

IB（InfiniBand）：基于 credit 的链路层流控，缓冲区满→发送方暂停发送→上游队列累积→反压向上游级联传播
RoCE（RDMA over Converged Ethernet）：PFC PAUSE 帧向上游传播→整条链路暂停→队头阻塞→影响同链路上的无关流量
TCP/IP（传统数据中心）：丢包→TCP RTO（最小 200ms）→吞吐坍塌

这些协议级反压效应是拥塞控制章节（ch12）的范畴，但它们改变了拥塞建模的"有效服务过程"——在反压激活后，交换机的实际服务速率不再是链路带宽，而是被上游暂停/重传压缩。

排队论建模

核心问题：排队论能给我们什么样的拥塞延迟估算？精度和局限在哪？

单跳排队模型

四种标准排队模型的公式和适用性：

模型	平均排队等待 W_q	适用场景	典型误差（ρ < 0.7）
M/M/1	ρ · τ / (1 - ρ)	混合大小包，粗略估算	系统性偏高 ~2×
M/D/1	ρ / [2μ(1 - ρ)]	固定大小包（AI训练常见）	< 10%
M/G/1	PK公式含 Var(S)	服务时间非指数非确定	依赖 Var(S) 准确性
G/G/1 (Kingman)	(ρ/(1-ρ)) · (c_a²+c_s²)/2 · τ	非 Poisson 到达	5-15%（ρ > 0.5）

@tbl-congestion-queue-models 四种标准排队模型的排队等待时间公式与适用场景

为什么 M/D/1 是 HPC 网络单跳的首选：

AI 训练中集合通信的数据包大小近似固定（chunk-based 传输）
确定性服务时间的 M/D/1 比指数服务的 M/M/1 更准确
M/D/1 的平均排队等待恰好是 M/M/1 的 1/2——服务时间变异为零消除了额外排队
Pollaczek-Khinchine 公式令 Var(S)=0 即得 M/D/1 公式

G/G/1 的 Kingman 近似是唯一能处理非 Poisson 到达的解析工具：

$$\begin{equation} W_q \approx \frac{\rho}{1 - \rho} \cdot \frac{c_a^2 + c_s^2}{2} \cdot \tau \label{eq:congestion-kingman-wq} \end{equation}$$

其中 c_a² = Var(到达间隔) / E[到达间隔]² 是到达变异系数平方，c_s² 类似定义服务时间变异。c_a² 是拥塞建模的关键参数——Poisson 到达时 c_a² = 1；AI 训练同步突发时 c_a² >> 1。

多跳排队模型

Jackson 网络将多跳拓扑分解为独立 M/M/1 节点：端到端延迟 = 路径上各节点 W_i 之和。但这依赖两条强假设：

每跳到达独立：前一跳的输出是下一跳的输入，但 Jackson 假设到达过程在各节点独立——实际上跨跳存在相关性（突发可能被平滑或放大）
Poisson 到达：即使初始到达是突发（c_a² >> 1），Jackson 假设每跳仍是 Poisson——这系统性低估多跳总延迟

多跳排队的方法论局限：尚无解析方法能精确处理跨跳相关性。实践中用两种近似：保守近似（各跳独立求和 + 安全系数 ~1.5-2×），或数值方法（仿真/ML surrogate）。

排队论在 AI 训练流量中的结构性失效

失效点	排队论假设	AI 训练实际	对延迟预测的影响
Poisson 到达	无记忆到达过程	同步突发（所有 GPU 同时通信）	平均延迟低估 30-50%
稳态	ρ < 1 且时间充分长	每迭代通信阶段仅持续数秒	短阶段内排队未达稳态（公式偏高或偏低方向不确定）
无限缓冲区	队列无容量限制	IB 交换机 ~2-16 MB/port	ρ > 0.8 时公式偏高（真实系统丢包/暂停）
FCFS 服务	先到先服务	优先级队列、WFQ	控制包延迟被低估
跨跳独立	各节点独立	突发经服务过程整形/放大	多跳总延迟误差方向不确定

@tbl-congestion-queue-failures 排队论假设在 AI 训练流量中的失效

核心矛盾：排队论假设到达是外生的、随机的、无记忆的；AI 训练通信的到达是确定性的、同步的、周期性的。这使得排队论的平均延迟公式可作为下界参考（真实延迟只高不低），但不能直接作为预测值。

流量模式与拥塞

核心问题：不同集合通信模式各自在什么条件下触发拥塞？退化形态有何不同？

四种流量模式的拥塞特征

维度	Incast N→1	AllToAll N×N	Ring stepwise	PP P2P
并发流数	N 条同时涌入 1 端口	N² 条同时活跃	2 条/步（N-1 步串行）	1 条
退化形态	阶跃式坍塌	超线性退化	斜率增大	被波及
拥塞阈值	N ≥ 8, 突发 > 缓冲吸收时间	N ≥ 32（均匀）；N ≥ 4（不均匀 MoE）	跨 spine 步链路 ρ > 0.8	与 TP/DP 叠加后 ρ > 0.5
关键参数	缓冲区大小、突发量	ECMP 路径数、流量均匀度	跨 spine 步数、背景负载	通信重叠调度

@tbl-congestion-traffic-patterns 四种流量模式的拥塞特征对比

Incast N→1：阶跃式坍塌

场景：AllReduce reduce-scatter 阶段、参数服务器梯度聚合。

机制：N 条流同时到达交换机同一输出端口，注入速率总和 = N × per_flow_rate。当 N × per_flow_rate > port_bw 且突发持续时间 > 缓冲区耗尽时间时，缓冲区在微秒级填满：

InfiniBand 400 Gb/s 端口、4 MB 共享缓冲区：N ≥ 8 且每条流 ≥ 1 MB → 缓冲区在 ~80 μs 内耗尽
RoCE 环境 PFC 触发更早（缓冲区水位线约 50% 即暂停）
TCP Incast 经典现象：丢包 → RTO（最小 200ms）→ 吞吐从满带宽跌至近零

退化形态：吞吐随 N 线性增加至临界点后阶跃式坍塌，非渐变退化。α-β 模型对此类场景的误差可达 500%+。

AllToAll N×N：超线性退化

场景：MoE expert parallelism 的 token dispatch/collect。

机制：N² 条流同时活跃，要求全截面带宽。ECMP 哈希碰撞导致多条流映射到同一路径，形成局部热点。MoE 场景下流量矩阵不均匀（不同 expert 的 token 数差异大），局部热点可 5-10× 于平均负载。

退化形态：O(N²) 需求 vs O(N) 截面带宽的矛盾——当 N 超过截面能承载的并发流数时，延迟从线性增长转为超线性增长。N ≥ 32 时拥塞显著。

Straggler 效应：所有节点必须等待最慢的对完成交换，一条慢流阻塞整个 AllToAll 完成——单条拥塞链路的影响被 straggler 放大到全局。

Ring stepwise：斜率增大

场景：Ring AllReduce / Ring AllGather。

机制：每步仅 2 条流，并发度低，不产生 Incast 式缓冲区溢出。但 N-1 步串行，总延迟由最慢步决定——ring 逻辑顺序映射到物理拓扑后，跨 spine/cross-rail 的步可能成为瓶颈步。

退化形态：延迟随 N 线性增长但斜率变大。不会出现阶跃坍塌，但多租户环境下其他任务的流量占用 spine 链路时，ring 步延迟在无自身高并发的情况下也会增大 2-5×。

PP P2P：被波及

场景：Pipeline parallelism 的 micro-batch 传递。

机制：单条流、短突发，本身几乎不触发拥塞。但在同一链路上与 TP AllReduce 或 DP gradient sync 叠加时，P2P 流被挤入剩余带宽，延迟增大 2-5×。

退化形态：渐进式 MFU 下降——通信延迟每增加 1ms，bubble 增加 ~2×(N_stage-1)ms。

混合建模方法

核心问题：有哪些方法能在不跑包级仿真的前提下提升拥塞场景的 α-β 延迟预测精度？

五类方法全景

方法	原理	低负载精度	高负载精度	代价	拓扑泛化	物理可解释性
纯 α-β（基线）	T = α + M/β	< 5%	> 50% 偏差	毫秒	完全	高
经验修正因子	T = (α+M/β) · f(N, ρ)	< 5%	30-50%	毫秒	差（需重标定）	中
查找表插值	预建延迟表 + 插值	5-10%	20-40%	毫秒	差（需重建表）	低
Surrogate (GNN)	ML 拟合仿真器输出	5-15%	15-25%	毫秒	好（拓扑迁移）	低
分段建模	低/中/饱和域各用不同公式	5-15%	15-30%	秒	好（域边界自适应）	高
Regression 修正	多元回归拟合延迟增量	10-25%	20-40%	毫秒	差	中

@tbl-congestion-methods-comparison 六种拥塞延迟预测方法全景对比

方法 1：经验修正因子

在 α-β 公式上乘/加一个从实测拟合的系数：

$$\begin{equation} T_{\text{congested}} = \left(\alpha + \frac{M}{\beta}\right) \cdot f(N_{\text{flows}}, \rho, \text{topology}) \label{eq:congestion-empirical-correction} \end{equation}$$

最简形式：f = max(1, N_contending_flows)，即 ASTRA-sim analytical backend 的"带宽除竞争流数"策略。进阶形式可用幂律拟合 f ~ (N_flows)^k。

优势：毫秒级计算，实现最简单。局限：修正因子对拓扑/路由算法/流大小分布敏感，换场景需重标定；高负载下 30-50% 偏差（非线性排队效应无法用乘性因子捕捉）。

方法 2：分段建模（推荐）

识别三个拥塞"域"，每域用不同公式：

低负载域（ρ < 0.3）：裸 α-β 无修正——排队概率 < 5%
中度域（0.3 ≤ ρ < 0.7）：α-β + M/D/1 排队修正，T = α + M/β + W_q(ρ)，W_q = ρ/[2μ(1-ρ)]
饱和域（ρ ≥ 0.7）：延迟趋无穷快于吞吐下降，改用吞吐上限模型 T = M / β_eff_saturated

域边界从流数、拓扑和链路容量自动计算，不依赖实测。优势：物理含义清晰，每域公式可独立验证；域边界自适应拓扑变化。局限：域边界处可能存在 10-20% 突变。

方法 3：GNN Surrogate

使用 GNN（如图神经网络 RouteNet-Fermi）学习仿真器的输入-输出映射：节点=交换机，边=链路，路径=流；消息传递迭代捕捉排队传播。

精度：中等负载 5-15% MAE，高负载 15-25%。代价：训练需数千次小规模仿真（数小时），推理毫秒级。关键优势：GNN 天然编码拓扑，换拓扑不需从头训练（权重迁移）。

对本项目的适用性：多拓扑场景（fat-tree / dragonfly / rail-optimized）下 GNN 的拓扑泛化能力有吸引力，但引入 GNN 推理框架增加系统复杂度。当前阶段推荐分段建模+经验修正，中长期考虑 GNN surrogate 作为 G5 仿真的快速近似。

方法 4：MimicNet 小规模泛化

用小规模 ns-3 仿真训练神经网络，泛化预测大规模 DCN 性能（SIGCOMM 2021）。核心思想：学习仿真逻辑而非输出表。从 N=16 泛化到 N=4096，速度提升 100-1000×。

局限：泛化精度在拥塞严重场景退化；训练数据质量是瓶颈；与本项目的解析+仿真双路径定位重叠（G5 本身可以做小规模仿真）。

方法 5：查找表插值

预跑一组小规模仿真覆盖关键参数组合，建表后通过插值回答任意参数下的延迟。不推荐——维度爆炸（5 维度各 10 级 = 100K entries）与本项目多拓扑多路由的场景不匹配。

对本项目的建议

Tier6 的 Math + G5 双路径架构天然适合分段建模 + 经验修正因子组合：

Math 路径（秒级，设计空间探索）：分段建模——低负载用裸 α-β+静态竞争，中度域加 M/D/1 排队修正，饱和域标记"建议跑 G5 验证"
G5 路径（分钟级，瓶颈分析）：是拥塞建模的"标准答案"——但分段建模的快速估计可帮助缩小 G5 扫描范围

工业实践

核心问题：业界在做什么？哪些系统已经做了拥塞感知的延迟预测？

现状：不做显式预测，做拥塞规避

公开资料中，没有任何工业系统公开了面向用户的拥塞延迟预测 API 或模型。所有主要厂商的做法是拥塞规避 + 经验调参，而非延迟预测。

厂商/系统	做法	是否有延迟预测
NVIDIA NCCL	TC/SL 分流、自适应路由、多 QP 散熵、ECE 硬件 CC	无
Google Pathways Alma	拓扑+负载→路径利用率→延迟估计（调度用）	是（内部启发式）
AWS EFA/SRD	多路径包喷射、丢包容忍	无
Microsoft MSCCL/TACCL	拓扑感知算法合成、链路利用率建模避免过订阅	半（算法合成用，非用户 API）
DeepSeek DeepEP	Credit-based 流控、双模式	无

@tbl-congestion-industry-practice 工业界拥塞处理实践

Google Pathways Alma：唯一的"延迟估计"系统

SIGCOMM 2022 论文 "Scheduling Communication in Pathways" 描述了 Alma 通信调度器，这是唯一公开了"拓扑+负载→延迟估计"链路的工业系统：

输入：网络拓扑（ICI 定制互联）、当前负载状态、待调度的集合通信请求
方法：已知拓扑带宽 + 已知流量矩阵 → 计算每段路径利用率 → 估算延迟 → 选择低拥塞时间窗口/路径
本质不是精确预测模型，而是调度器内部的启发式——"哪条路径/哪个时间窗通信更快"
多租户环境下，不同训练任务的集合通信被交错调度以避免同时占用截面带宽

NCCL 的拥塞参数体系

NCCL 虽然不做延迟预测，但其拥塞参数体系是理解"AI 训练网络如何被拥塞影响"的最佳参考：

NCCL_IB_TC：Traffic Class 区分 QoS，控制消息与数据消息分离——控制面拥塞阻塞数据面是 NCCL 最关注的拥塞问题
NCCL_IB_ADAPTIVE_ROUTING：自适应路由动态选择非拥塞路径，大消息（> 8192 字节默认）启用
NCCL_IB_QPS_PER_CONNECTION：创建多个 Queue Pair 提供路由熵，分散负载
NCCL_CROSS_NIC：控制跨 Rail 通信，=0 强制 Rail-Local（避免跨 Rail 拥塞）
大规模训练的经验参数：≥ 128 GPU 通常设置 TC=1、QPS=4、启用自适应路由

这些参数体系反映了工业界对拥塞的理解——不做预测，做规避。参数的含义也反向揭示了 AI 训练网络中最脆弱的拥塞点（控制面 vs 数据面、single QP vs multi QP、ECMP 哈希碰撞）。

MSCCL：拓扑感知算法合成中的拥塞建模

Microsoft 的 MSCCL/TACCL 是唯一在算法合成中显式建模拥塞的工业系统：

输入拓扑图 + 链路带宽 → 合成算法步骤
合成器建模每条链路的利用率，约束不超过 1.0（避免过订阅）
chunk-based 调度实现流水线化，减少同时占用链路的流量
Azure NDv4/NDv5 集群上实测 2-3× 加速 vs NCCL 默认算法

MSCCL 的拥塞建模是约束优化而非延迟预测——目标是最小化拥塞，而非预测拥塞下的延迟。但这两种视角互补——一个设计网络（选择算法/拓扑以最小化拥塞），一个评估网络（给定已有设计，预测延迟）。

建模建议

核心问题：在 Tier6 项目中如何建模拥塞？哪些参数是必要的？

必要参数

仿真器引入拥塞建模需要的额外参数（相对于已有 LoGPC/静态竞争）：

buffer_size_bytes: int：交换机端口缓冲区大小（IB 典型 ~2-16 MB）
congestion_threshold_rho: float：拥塞起效利用率阈值（默认 0.5）
saturation_threshold_rho: float：饱和域边界利用率（默认 0.7）
流量到达模式：arrival_cv_sq: float（c_a²，到达变异系数平方）——同步突发 c_a² >> 1，默认 4.0
每个通信 step 的并发流数 F（沿用 LoGPC 的定义，增加拥塞域的特殊处理）

局限与适用边界

拥塞建模的解析天花板

拥塞建模不是包级仿真的"快速替代"——它是精度与速度之间的梯度选择：

方法	精度	速度	适用场景
α-β + 静态竞争	5-20%	微秒	设计空间探索（百万组合）
α-β + 分段拥塞	10-30%	秒	拥塞场景快速筛选
G5 仿真	5-15%	分钟	精细瓶颈分析
全包级仿真（ns-3）	基准	小时	协议级验证

分段拥塞建模在以下场景结构性失效：

PFC 反压：暂停帧级联传播的时空动态无法用解析公式捕捉
多租户不可预测流量：流量模式不可知，排队论参数无法确定
ECMP 哈希碰撞：具体哪些流撞在同一路径的概率分布依赖哈希函数实现
自适应路由：路径动态切换的瞬态行为超出一阶排队模型

行业趋势：拥塞预测从"不可能"走向"困难"

GNN surrogate（RouteNet-Fermi 类）正在缩小解析模型与仿真之间的精度差距
Alma 式的拓扑+负载→延迟启发式可能成为 AI 集群网络运维的标配
随着 AI 集群规模增长（100K+ GPU），拥塞预测的经济价值急剧上升——每 1% 的 MFU 提升意味着数百万美元/年的价值

Takeaway

知识点	核心结论
拥塞 vs 静态竞争	静态竞争是线性带宽分摊，拥塞是非线性队列累积——ρ > 0.5 后分叉
排队论价值	M/D/1 是 HPC 单跳首选（~M/M/1 误差的 1/2）；G/G/1 处理非 Poisson 到达
AI 流量特殊性	同步突发使 c_a² >> 1，排队论平均延迟低估 30-50%
流量模式分化	Incast 阶跃坍塌、AllToAll 超线性退化、Ring 斜率增大、PP 被波及
最优实践	分段建模（低/中/饱和域）+ 经验修正因子——秒级代价，10-30% 精度
工业现状	无公开延迟预测 API；Google Alma 是唯一的"负载→延迟"工业启发式；NCCL/MSCCL 做规避不做预测
解析天花板	PFC 反压/多租户/ECMP 碰撞/自适应路由——结构性超出解析模型，需 G5 或包级仿真

拥塞建模

设计动机

拥塞的物理机制

从静态竞争到队列累积

拥塞如何影响 α 和 β

缓冲区压力的级联效应

排队论建模

单跳排队模型

多跳排队模型

排队论在 AI 训练流量中的结构性失效

流量模式与拥塞

四种流量模式的拥塞特征

Incast N→1：阶跃式坍塌

AllToAll N×N：超线性退化

Ring stepwise：斜率增大

PP P2P：被波及

混合建模方法

五类方法全景

方法 1：经验修正因子

方法 2：分段建模（推荐）

方法 3：GNN Surrogate

方法 4：MimicNet 小规模泛化

方法 5：查找表插值

对本项目的建议

工业实践

现状：不做显式预测，做拥塞规避

Google Pathways Alma：唯一的"延迟估计"系统

NCCL 的拥塞参数体系

MSCCL：拓扑感知算法合成中的拥塞建模

建模建议

推荐的拥塞建模策略

必要参数

局限与适用边界

拥塞建模的解析天花板

行业趋势：拥塞预测从"不可能"走向"困难"

Takeaway

参考资料

设计动机​

拥塞的物理机制​

从静态竞争到队列累积​

拥塞如何影响 α 和 β​

缓冲区压力的级联效应​

排队论建模​

单跳排队模型​

多跳排队模型​

排队论在 AI 训练流量中的结构性失效​

流量模式与拥塞​

四种流量模式的拥塞特征​

Incast N→1：阶跃式坍塌​

AllToAll N×N：超线性退化​

Ring stepwise：斜率增大​

PP P2P：被波及​

混合建模方法​

五类方法全景​

方法 1：经验修正因子​

方法 2：分段建模（推荐）​

方法 3：GNN Surrogate​

方法 4：MimicNet 小规模泛化​

方法 5：查找表插值​

对本项目的建议​

工业实践​

现状：不做显式预测，做拥塞规避​

Google Pathways Alma：唯一的"延迟估计"系统​

NCCL 的拥塞参数体系​

MSCCL：拓扑感知算法合成中的拥塞建模​

建模建议​

推荐的拥塞建模策略​

必要参数​

局限与适用边界​

拥塞建模的解析天花板​

行业趋势：拥塞预测从"不可能"走向"困难"​

Takeaway​

参考资料​

设计动机

拥塞的物理机制

从静态竞争到队列累积

拥塞如何影响 α 和 β

缓冲区压力的级联效应

排队论建模

单跳排队模型

多跳排队模型

排队论在 AI 训练流量中的结构性失效

流量模式与拥塞

四种流量模式的拥塞特征

Incast N→1：阶跃式坍塌

AllToAll N×N：超线性退化

Ring stepwise：斜率增大

PP P2P：被波及

混合建模方法

五类方法全景

方法 1：经验修正因子

方法 2：分段建模（推荐）

方法 3：GNN Surrogate

方法 4：MimicNet 小规模泛化

方法 5：查找表插值

对本项目的建议

工业实践

现状：不做显式预测，做拥塞规避

Google Pathways Alma：唯一的"延迟估计"系统

NCCL 的拥塞参数体系

MSCCL：拓扑感知算法合成中的拥塞建模

建模建议

推荐的拥塞建模策略

必要参数

局限与适用边界

拥塞建模的解析天花板

行业趋势：拥塞预测从"不可能"走向"困难"

Takeaway

参考资料