跳到主要内容

总览

本章节范围:LLM 训练与推理中各并行策略 (TP / SP / PP / DP / CP / EP) 的切分维度、通信原语、消息量级与调度关系。 目标读者:设计或评估分布式部署、分析通信瓶颈、选择集合通信算法的工程师。

范围与边界 (Scope)

  • 包含:6 种主要并行策略各自的通信原语与触发时机;各并行切的张量维度横向对照;计算-通信 overlap 潜力;推理部署模式 (Prefill/Decode 不对称、PD 分离、KV cache 迁移)。
  • 不包含:

名词定义

名词定义
TP (Tensor Parallelism,张量并行)将单层权重矩阵按列/行切到多设备,每层用 AllReduce 合并部分积[1]
SP (Sequence Parallelism,序列并行)TP 组内沿序列维度切分激活,把 TP 的 AllReduce 替换为 AllGather + ReduceScatter[2]
PP (Pipeline Parallelism,流水线并行)模型按层切成多个 stage, stage 间 P2P 传激活;bubble 率是主要效率损失[3]
DP (Data Parallelism,数据并行)每 worker 持完整模型副本,训练时反向用 AllReduce 同步梯度,通信量与参数量正相关
CP (Context Parallelism,上下文并行)沿 token 维度把单条序列切到多卡,解决长上下文单卡装不下激活/KV 的问题;与 TP/DP/EP 正交
EP (Expert Parallelism,专家并行)MoE 模型把不同 expert 分布到不同设备,用 AllToAll 实现 token 跨卡路由[4]
ZeRO (Zero Redundancy Optimizer)把优化器状态/梯度/参数分片到 DP worker,消除冗余显存,代价是 AllGather/ReduceScatter[5]
MFU (Model FLOPS Utilization)实际计算吞吐与芯片理论峰值算力的比值,通信空泡直接压低 MFU
Bubble 率PP 中因 micro-batch 调度产生的 stage 空闲时间占比,随 PP 度增大而上升
Micro-batchPP 中为填充流水线把 global batch 切成的更小批次
Overlap通信与计算在不同硬件单元上并发执行以隐藏通信延迟,提升 MFU 的核心手段
PD 分离 (Prefill-Decode Disaggregation)把 prefill 与 decode 部署到不同 GPU 集合,prefill 完成后通过 RDMA 推 KV cache 给 decode

@tbl-par-overview-glossary LLM 并行通信章共享名词

本章所有文档默认这些名词已定义,不再重复;子章节专属名词 (如 MoE 的 Logical/Physical expert、Dispatch/Combine、Balancedness、MTP) 见 08-专家并行/01-总览, CP 子名词 (Ring/Ulysses/Pass-KV/Pass-Q 等) 见 07-上下文并行/01-总览

子文档索引 (Index)

前置导读

  • 2 并行切分的矩阵视角 — 每种并行切的是 transformer 张量的哪一维、维度正交叠加、通信原语的由来 (推荐先读,建立心智模型)

基础并行策略

  • 3 张量并行 (TP) — TP 列/行切分、每层 AllReduce、TP 度与延迟关系
  • 4.1 总览 — SP TP 组内序列切分、AllGather + ReduceScatter 替代 AllReduce
  • 5 流水并行 (PP) — PP Stage 切分、P2P 通信、Bubble 率公式
  • 6 数据并行 (DP) — DP 梯度同步、ZeRO 分级、训练/推理差异
  • 07-上下文并行/ — CP 子章:Ring Attention、Ulysses、decode CP、异构 attention 通信
  • 08-专家并行/ — EP 子章:MoE 路由、AllToAll、EPLB 负载均衡、DeepEP、通信建模、大规模实测

跨策略横向主题

  • 09-跨策略横向/ — 计算通信 overlap、推理部署模式 (Prefill/Decode 不对称、PD 分离、KV cache 迁移)

参考资料

  1. Shoeybi et al., Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism, arXiv:1909.08053, 2019. https://arxiv.org/abs/1909.08053
  2. Korthikanti et al., Reducing Activation Recomputation in Large Transformer Models, MLSys 2023. https://arxiv.org/abs/2205.05198
  3. Narayanan et al., Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM, SC 2021. https://arxiv.org/abs/2104.04473
  4. Fedus et al., Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, JMLR 2022. https://arxiv.org/abs/2101.03961
  5. Rajbhandari et al., ZeRO: Memory Optimizations Toward Training Trillion Parameter Models, SC 2020. https://arxiv.org/abs/1910.02054