总览

本章节范围：集合通信延迟的代数建模 — 从基础 $\alpha$-$\beta$ 公式到分层拓扑、参数标定与精度验证。 目标读者：做集群拓扑设计、并行策略选型、LLM 推理 / 训练性能预估的工程师。

范围与边界

包含：$\alpha$-$\beta$ / LogP / LogGP / PLogP / LoGPC 模型族；AllReduce / AllGather / ReduceScatter / AllToAll 等集合通信原语的 $\alpha$-$\beta$ 算法公式；多跳分层拓扑建模；nccl-tests 参数标定；单层 / 两层拓扑精度回测。
不包含：包级仿真 (NS-3 / OMNeT++，见 07-仿真工具)；拥塞控制算法机制 (DCQCN/HPCC/PFC)；集合通信拓扑实现细节 (NCCL Ring/Tree 的具体调度，见 04-集合通信)；路由算法本身 (见 03-路由算法)。

名词定义

名词	定义
$\alpha$-$\beta$ 模型	将通信延迟分解为固定启动开销 $\alpha$ 和带宽相关项 $M/\beta$ 的线性公式 (Hockney 1994)
$\alpha$ （启动延迟）	发送一条消息的固定开销，含协议握手 / DMA 启动 / NIC 驱动，与消息大小无关，单位 $\mu s$
$\beta$ （有效带宽）	单位时间内可传输的字节数，从实测数据拟合，通常低于物理链路线速，单位 B/s
LogP / LogGP	$\alpha$-$\beta$ 的细化扩展，将 $\alpha$ 拆分为 $L$ （网络） + $o$ (CPU) + $g$ （注入速率），$G$ 处理大消息
PLogP	LogP 参数函数化版本，$L(m)$ / $o(m)$ / $g(m)$ 随消息大小变化
LoGPC	LogGP + 静态竞争因子 $C$，用并发流数缩减有效带宽
BusBW / AlgBW	nccl-tests 输出的两种带宽：AlgBW = $M/T$ （用户视角），BusBW 含算法系数修正（硬件视角）
多跳延迟	报文经过多个交换机转发时，每跳 $\alpha$ 累加，带宽取路径瓶颈
参数标定	从 nccl-tests 实测数据中拟合有效 $\alpha$ / $\beta$ 的过程 — 规格书峰值 $\neq$ 端到端有效值
RMSPE	均方根百分比误差，$\sqrt{\frac{1}{n}\sum (\hat{T}_i - T_i)^2 / T_i^2}$，目标通常 < 10%
NVLS	NVSwitch In-Network Reduction，网内归约可使 BusBW 超过单链路线速，$\alpha$-$\beta$ 无法建模

@tbl-model-glossary 第 6 章共享名词表

本章节后续文档默认上述名词已定义，不再重复；各概念型文档仅在引入新概念时 inline 加粗解释。

建模流水线

本章节 6 篇概念文档形成一条建模链路，每一步的输出是下一步的输入：

02-alpha-beta模型       →  03-扩展模型              →  04-算法延迟公式
点对点 / 集合通信基础公式      PLogP / LoGPC / Fluid       AllReduce / AllGather /
($\alpha$ 物理分解、$\beta$    竞争修正 (消除常数假设       ReduceScatter / AllToAll
S 曲线、LogP / LogGP)         和链路独占假设)
                                                          |
                                                          v
05-多跳拓扑建模         ←─────────────────────────────────
将单跳公式推广到分层拓扑
(多跳 $\alpha$ 累加、瓶颈带宽)
         |
         v
06-参数标定
从 nccl-tests 实测数据拟合
有效 $\alpha$ / $\beta$
         |
         v
07-精度验证
单层 / 两层拓扑回测
(RMSPE < 10%)

各阶段适用范围与典型误差：

建模阶段	适用范围	计算速度	典型误差	主要局限
$\alpha$-$\beta$ 基础模型（点对点）	单跳 P2P 通信	微秒级	5–15%	不含交换机排队 / 竞争
算法延迟公式（集合通信）	AllReduce / AllToAll / AllGather，单层网络	微秒级	10–30%	假设链路无竞争、负载均衡
多跳拓扑建模	跨层分层网络（节点内 + 节点间）	微秒级	10–25%	依赖分层边界划分是否准确
参数标定后的完整模型	已有实测数据的互联类型	微秒级	5–15% （大消息）	需要同类型互联的 nccl-tests 数据
精度验证通过后的生产模型	LLM TP / PP 通信，消息 > 64 MB	微秒级	< 10% RMSPE	小消息 (< 1 MB) 误差可达 50%+
拥塞建模（分段排队 + 经验修正）	中-高负载（ρ > 0.5）拥塞场景快速筛选	秒级	10–30%	PFC 反压/ECMP 碰撞/多租户 — 结构性超出解析模型

@tbl-model-pipeline-compare 各建模阶段适用范围与误差对照

子文档索引

6.2 Alpha-Beta 模型 — Hockney 基础公式；$\alpha$ 物理分解；$\beta$ S 曲线；LogP / LogGP 扩展。
6.3 扩展模型 — PLogP 参数函数化；LoGPC 静态竞争；Fluid / Network Calculus 对比；误差消除链。
6.4 集合通信算法延迟公式 — Ring / RHD / DBT AllReduce, AllGather / ReduceScatter, Pairwise / Bruck AllToAll 的 $\alpha$-$\beta$ 公式手册。
6.5 多跳拓扑建模 — 多跳 $\alpha$ 累加；cut-through 优化；节点内 + 节点间分层公式；静态竞争建模。
6.6 参数标定 — nccl-tests 数据来源；$\alpha$ 流水线显式法（方法 B）；$\beta$ 利用率拟合；各互联类型标定结果。
6.7 精度验证 — 单层 / 两层拓扑回测；RMSPE 分段误差分析；已知精度边界 + 工程建议。
6.8 拥塞建模 — 突破 α-β 无竞争假设：排队论模型、流量模式拥塞特征、分段建模+经验修正方法、工业实践对比。

范围与边界​

名词定义​

建模流水线​

子文档索引​

范围与边界

名词定义

建模流水线

子文档索引