跳到主要内容

总览

本章节范围:集合通信延迟的代数建模 — 从基础 $\alpha$-$\beta$ 公式到分层拓扑、参数标定与精度验证。 目标读者:做集群拓扑设计、并行策略选型、LLM 推理 / 训练性能预估的工程师。

范围与边界

  • 包含$\alpha$-$\beta$ / LogP / LogGP / PLogP / LoGPC 模型族;AllReduce / AllGather / ReduceScatter / AllToAll 等集合通信原语的 $\alpha$-$\beta$ 算法公式;多跳分层拓扑建模;nccl-tests 参数标定;单层 / 两层拓扑精度回测。
  • 不包含:包级仿真 (NS-3 / OMNeT++,见 07-仿真工具);拥塞控制算法机制 (DCQCN/HPCC/PFC);集合通信拓扑实现细节 (NCCL Ring/Tree 的具体调度,见 04-集合通信);路由算法本身 (见 03-路由算法)。

名词定义

名词定义
$\alpha$-$\beta$ 模型将通信延迟分解为固定启动开销 $\alpha$ 和带宽相关项 $M/\beta$ 的线性公式 (Hockney 1994)
$\alpha$ (启动延迟)发送一条消息的固定开销,含协议握手 / DMA 启动 / NIC 驱动,与消息大小无关,单位 $\mu s$
$\beta$ (有效带宽)单位时间内可传输的字节数,从实测数据拟合,通常低于物理链路线速,单位 B/s
LogP / LogGP$\alpha$-$\beta$ 的细化扩展,将 $\alpha$ 拆分为 $L$ (网络) + $o$ (CPU) + $g$ (注入速率),$G$ 处理大消息
PLogPLogP 参数函数化版本,$L(m)$ / $o(m)$ / $g(m)$ 随消息大小变化
LoGPCLogGP + 静态竞争因子 $C$,用并发流数缩减有效带宽
BusBW / AlgBWnccl-tests 输出的两种带宽:AlgBW = $M/T$ (用户视角),BusBW 含算法系数修正 (硬件视角)
多跳延迟报文经过多个交换机转发时,每跳 $\alpha$ 累加,带宽取路径瓶颈
参数标定从 nccl-tests 实测数据中拟合有效 $\alpha$ / $\beta$ 的过程 — 规格书峰值 $\neq$ 端到端有效值
RMSPE均方根百分比误差,$\sqrt{\frac{1}{n}\sum (\hat{T}_i - T_i)^2 / T_i^2}$,目标通常 < 10%
NVLSNVSwitch In-Network Reduction,网内归约可使 BusBW 超过单链路线速,$\alpha$-$\beta$ 无法建模

@tbl-model-glossary 第 6 章共享名词表

本章节后续文档默认上述名词已定义,不再重复;各概念型文档仅在引入新概念时 inline 加粗解释。

建模流水线

本章节 6 篇概念文档形成一条建模链路,每一步的输出是下一步的输入:

02-alpha-beta模型       →  03-扩展模型              →  04-算法延迟公式
点对点 / 集合通信基础公式 PLogP / LoGPC / Fluid AllReduce / AllGather /
($\alpha$ 物理分解、$\beta$ 竞争修正 (消除常数假设 ReduceScatter / AllToAll
S 曲线、LogP / LogGP) 和链路独占假设)
|
v
05-多跳拓扑建模 ←─────────────────────────────────
将单跳公式推广到分层拓扑
(多跳 $\alpha$ 累加、瓶颈带宽)
|
v
06-参数标定
从 nccl-tests 实测数据拟合
有效 $\alpha$ / $\beta$
|
v
07-精度验证
单层 / 两层拓扑回测
(RMSPE < 10%)

各阶段适用范围与典型误差:

建模阶段适用范围计算速度典型误差主要局限
$\alpha$-$\beta$ 基础模型 (点对点)单跳 P2P 通信微秒级5–15%不含交换机排队 / 竞争
算法延迟公式 (集合通信)AllReduce / AllToAll / AllGather,单层网络微秒级10–30%假设链路无竞争、负载均衡
多跳拓扑建模跨层分层网络 (节点内 + 节点间)微秒级10–25%依赖分层边界划分是否准确
参数标定后的完整模型已有实测数据的互联类型微秒级5–15% (大消息)需要同类型互联的 nccl-tests 数据
精度验证通过后的生产模型LLM TP / PP 通信,消息 > 64 MB微秒级< 10% RMSPE小消息 (< 1 MB) 误差可达 50%+
拥塞建模 (分段排队 + 经验修正)中-高负载(ρ > 0.5)拥塞场景快速筛选秒级10–30%PFC 反压/ECMP 碰撞/多租户 — 结构性超出解析模型

@tbl-model-pipeline-compare 各建模阶段适用范围与误差对照

子文档索引

  • 6.2 Alpha-Beta 模型 — Hockney 基础公式;$\alpha$ 物理分解;$\beta$ S 曲线;LogP / LogGP 扩展。
  • 6.3 扩展模型 — PLogP 参数函数化;LoGPC 静态竞争;Fluid / Network Calculus 对比;误差消除链。
  • 6.4 集合通信算法延迟公式 — Ring / RHD / DBT AllReduce, AllGather / ReduceScatter, Pairwise / Bruck AllToAll 的 $\alpha$-$\beta$ 公式手册。
  • 6.5 多跳拓扑建模 — 多跳 $\alpha$ 累加;cut-through 优化;节点内 + 节点间分层公式;静态竞争建模。
  • 6.6 参数标定 — nccl-tests 数据来源;$\alpha$ 流水线显式法 (方法 B);$\beta$ 利用率拟合;各互联类型标定结果。
  • 6.7 精度验证 — 单层 / 两层拓扑回测;RMSPE 分段误差分析;已知精度边界 + 工程建议。
  • 6.8 拥塞建模 — 突破 α-β 无竞争假设:排队论模型、流量模式拥塞特征、分段建模+经验修正方法、工业实践对比。