总览
本章节范围:集合通信延迟的代数建模 — 从基础 $\alpha$-$\beta$ 公式到分层拓扑、参数标定与精度验证。 目标读者:做集群拓扑设计、并行策略选型、LLM 推理 / 训练性能预估的工程师。
范围与边界
- 包含:$\alpha$-$\beta$ / LogP / LogGP / PLogP / LoGPC 模型族;AllReduce / AllGather / ReduceScatter / AllToAll 等集合通信原语的 $\alpha$-$\beta$ 算法公式;多跳分层拓扑建模;nccl-tests 参数标定;单层 / 两层拓扑精度回测。
- 不包含:包级仿真 (NS-3 / OMNeT++,见 07-仿真工具);拥塞控制算法机制 (DCQCN/HPCC/PFC);集合通信拓扑实现细节 (NCCL Ring/Tree 的具体调度,见 04-集合通信);路由算法本身 (见 03-路由算法)。
名词定义
| 名词 | 定义 |
|---|---|
| $\alpha$-$\beta$ 模型 | 将通信延迟分解为固定启动开销 $\alpha$ 和带宽相关项 $M/\beta$ 的线性公式 (Hockney 1994) |
| $\alpha$ (启动延迟) | 发送一条消息的固定开销,含协议握手 / DMA 启动 / NIC 驱动,与消息大小无关,单位 $\mu s$ |
| $\beta$ (有效带宽) | 单位时间内可传输的字节数,从实测数据拟合,通常低于物理链路线速,单位 B/s |
| LogP / LogGP | $\alpha$-$\beta$ 的细化扩展,将 $\alpha$ 拆分为 $L$ (网络) + $o$ (CPU) + $g$ (注入速率),$G$ 处理大消息 |
| PLogP | LogP 参数函数化版本,$L(m)$ / $o(m)$ / $g(m)$ 随消息大小变化 |
| LoGPC | LogGP + 静态竞争因子 $C$,用并发流数缩减有效带宽 |
| BusBW / AlgBW | nccl-tests 输出的两种带宽:AlgBW = $M/T$ (用户视角),BusBW 含算法系数修正 (硬件视角) |
| 多跳延迟 | 报文经过多个交换机转发时,每跳 $\alpha$ 累加,带宽取路径瓶颈 |
| 参数标定 | 从 nccl-tests 实测数据中拟合有效 $\alpha$ / $\beta$ 的过程 — 规格书峰值 $\neq$ 端到端有效值 |
| RMSPE | 均方根百分比误差,$\sqrt{\frac{1}{n}\sum (\hat{T}_i - T_i)^2 / T_i^2}$,目标通常 < 10% |
| NVLS | NVSwitch In-Network Reduction,网内归约可使 BusBW 超过单链路线速,$\alpha$-$\beta$ 无法建模 |
@tbl-model-glossary 第 6 章共享名词表
本章节后续文档默认上述名词已定义,不再重复;各概念型文档仅在引入新概念时 inline 加粗解释。
建模流水线
本章节 6 篇概念文档形成一条建模链路,每一步的输出是下一步的输入:
02-alpha-beta模型 → 03-扩展模型 → 04-算法延迟公式
点对点 / 集合通信基础公式 PLogP / LoGPC / Fluid AllReduce / AllGather /
($\alpha$ 物理分解、$\beta$ 竞争修正 (消除常数假设 ReduceScatter / AllToAll
S 曲线、LogP / LogGP) 和链路独占假设)
|
v
05-多跳拓扑建模 ←─────────────────────────────────
将单跳公式推广到分层拓扑
(多跳 $\alpha$ 累加、瓶颈带宽)
|
v
06-参数标定
从 nccl-tests 实测数据拟合
有效 $\alpha$ / $\beta$
|
v
07-精度验证
单层 / 两层拓扑回测
(RMSPE < 10%)
各阶段适用范围与典型误差:
| 建模阶段 | 适用范围 | 计算速度 | 典型误差 | 主要局限 |
|---|---|---|---|---|
| $\alpha$-$\beta$ 基础模型 (点对点) | 单跳 P2P 通信 | 微秒级 | 5–15% | 不含交换机排队 / 竞争 |
| 算法延迟公式 (集合通信) | AllReduce / AllToAll / AllGather,单层网络 | 微秒级 | 10–30% | 假设链路无竞争、负载均衡 |
| 多跳拓扑建模 | 跨层分层网络 (节点内 + 节点间) | 微秒级 | 10–25% | 依赖分层边界划分是否准确 |
| 参数标定后的完整模型 | 已有实测数据的互联类型 | 微秒级 | 5–15% (大消息) | 需要同类型互联的 nccl-tests 数据 |
| 精度验证通过后的生产模型 | LLM TP / PP 通信,消息 > 64 MB | 微秒级 | < 10% RMSPE | 小消息 (< 1 MB) 误差可达 50%+ |
| 拥塞建模 (分段排队 + 经验修正) | 中-高负载(ρ > 0.5)拥塞场景快速筛选 | 秒级 | 10–30% | PFC 反压/ECMP 碰撞/多租户 — 结构性超出解析模型 |
@tbl-model-pipeline-compare 各建模阶段适用范围与误差对照
子文档索引
- 6.2 Alpha-Beta 模型 — Hockney 基础公式;$\alpha$ 物理分解;$\beta$ S 曲线;LogP / LogGP 扩展。
- 6.3 扩展模型 — PLogP 参数函数化;LoGPC 静态竞争;Fluid / Network Calculus 对比;误差消除链。
- 6.4 集合通信算法延迟公式 — Ring / RHD / DBT AllReduce, AllGather / ReduceScatter, Pairwise / Bruck AllToAll 的 $\alpha$-$\beta$ 公式手册。
- 6.5 多跳拓扑建模 — 多跳 $\alpha$ 累加;cut-through 优化;节点内 + 节点间分层公式;静态竞争建模。
- 6.6 参数标定 — nccl-tests 数据来源;$\alpha$ 流水线显式法 (方法 B);$\beta$ 利用率拟合;各互联类型标定结果。
- 6.7 精度验证 — 单层 / 两层拓扑回测;RMSPE 分段误差分析;已知精度边界 + 工程建议。
- 6.8 拥塞建模 — 突破 α-β 无竞争假设:排队论模型、流量模式拥塞特征、分段建模+经验修正方法、工业实践对比。