总览
本章节范围:LLM 训练与推理中各并行策略 (TP / SP / PP / DP / CP / EP) 的切分维度、通信原语、消息量级与调度关系。 目标读者:设计或评估分布式部署、分析通信瓶颈、选择集合通信算法的工程师。
范围与边界 (Scope)
- 包含:6 种主要并行策略各自的通信原语与触发时机;各并行切的张量维度横向对照;计算-通信 overlap 潜力;推理部署模式 (Prefill/Decode 不对称、PD 分离、KV cache 迁移)。
- 不包含:
- 集合通信原语本身的算法 (Ring AllReduce / Recursive Doubling 等) → 04-集合通信
- 通信性能建模公式 ($\alpha$-$\beta$ 模型、roofline) → 06-通信性能建模
- 推理服务化系统与调度 (Mooncake / SGLang / Dynamo) → 09-推理服务化通信
- DeepSeek-V3/V4 的具体通信需求 → 07-前沿模型追踪 / DeepSeek-V4
名词定义
| 名词 | 定义 |
|---|---|
| TP (Tensor Parallelism,张量并行) | 将单层权重矩阵按列/行切到多设备,每层用 AllReduce 合并部分积[1] |
| SP (Sequence Parallelism,序列并行) | TP 组内沿序列维度切分激活,把 TP 的 AllReduce 替换为 AllGather + ReduceScatter[2] |
| PP (Pipeline Parallelism,流水线并行) | 模型按层切成多个 stage, stage 间 P2P 传激活;bubble 率是主要效率损失[3] |
| DP (Data Parallelism,数据并行) | 每 worker 持完整模型副本,训练时反向用 AllReduce 同步梯度,通信量与参数量正相关 |
| CP (Context Parallelism,上下文并行) | 沿 token 维度把单条序列切到多卡,解决长上下文单卡装不下激活/KV 的问题;与 TP/DP/EP 正交 |
| EP (Expert Parallelism,专家并行) | MoE 模型把不同 expert 分布到不同设备,用 AllToAll 实现 token 跨卡路由[4] |
| ZeRO (Zero Redundancy Optimizer) | 把优化器状态/梯度/参数分片到 DP worker,消除冗余显存,代价是 AllGather/ReduceScatter[5] |
| MFU (Model FLOPS Utilization) | 实际计算吞吐与芯片理论峰值算力的比值,通信空泡直接压低 MFU |
| Bubble 率 | PP 中因 micro-batch 调度产生的 stage 空闲时间占比,随 PP 度增大而上升 |
| Micro-batch | PP 中为填充流水线把 global batch 切成的更小批次 |
| Overlap | 通信与计算在不同硬件单元上并发执行以隐藏通信延迟,提升 MFU 的核心手段 |
| PD 分离 (Prefill-Decode Disaggregation) | 把 prefill 与 decode 部署到不同 GPU 集合,prefill 完成后通过 RDMA 推 KV cache 给 decode |
@tbl-par-overview-glossary LLM 并行通信章共享名词
本章所有文档默认这些名词已定义,不再重复;子章节专属名词 (如 MoE 的 Logical/Physical expert、Dispatch/Combine、Balancedness、MTP) 见 08-专家并行/01-总览, CP 子名词 (Ring/Ulysses/Pass-KV/Pass-Q 等) 见 07-上下文并行/01-总览。
子文档索引 (Index)
前置导读:
- 2 并行切分的矩阵视角 — 每种并行切的是 transformer 张量的哪一维、维度正交叠加、通信原语的由来 (推荐先读,建立心智模型)
基础并行策略:
- 3 张量并行 (TP) — TP 列/行切分、每层 AllReduce、TP 度与延迟关系
- 4.1 总览 — SP TP 组内序列切分、AllGather + ReduceScatter 替代 AllReduce
- 5 流水并行 (PP) — PP Stage 切分、P2P 通信、Bubble 率公式
- 6 数据并行 (DP) — DP 梯度同步、ZeRO 分级、训练/推理差异
- 07-上下文并行/ — CP 子章:Ring Attention、Ulysses、decode CP、异构 attention 通信
- 08-专家并行/ — EP 子章:MoE 路由、AllToAll、EPLB 负载均衡、DeepEP、通信建模、大规模实测
跨策略横向主题:
- 09-跨策略横向/ — 计算通信 overlap、推理部署模式 (Prefill/Decode 不对称、PD 分离、KV cache 迁移)
参考资料
- Shoeybi et al., Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism, arXiv:1909.08053, 2019. https://arxiv.org/abs/1909.08053
- Korthikanti et al., Reducing Activation Recomputation in Large Transformer Models, MLSys 2023. https://arxiv.org/abs/2205.05198
- Narayanan et al., Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM, SC 2021. https://arxiv.org/abs/2104.04473
- Fedus et al., Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, JMLR 2022. https://arxiv.org/abs/2101.03961
- Rajbhandari et al., ZeRO: Memory Optimizations Toward Training Trillion Parameter Models, SC 2020. https://arxiv.org/abs/1910.02054