总览

本章节范围：LLM 训练与推理中各并行策略 (TP / SP / PP / DP / CP / EP) 的切分维度、通信原语、消息量级与调度关系。 目标读者：设计或评估分布式部署、分析通信瓶颈、选择集合通信算法的工程师。

范围与边界 (Scope)

包含：6 种主要并行策略各自的通信原语与触发时机；各并行切的张量维度横向对照；计算-通信 overlap 潜力；推理部署模式（Prefill/Decode 不对称、PD 分离、KV cache 迁移）。
不包含：
- 集合通信原语本身的算法（Ring AllReduce / Recursive Doubling 等） → 04-集合通信
- 通信性能建模公式 ($\alpha$-$\beta$ 模型、roofline) → 06-通信性能建模
- 推理服务化系统与调度 (Mooncake / SGLang / Dynamo) → 09-推理服务化通信
- DeepSeek-V3/V4 的具体通信需求 → 07-前沿模型追踪 / DeepSeek-V4

名词定义

名词	定义
TP （Tensor Parallelism，张量并行）	将单层权重矩阵按列/行切到多设备，每层用 AllReduce 合并部分积[1]
SP （Sequence Parallelism，序列并行）	TP 组内沿序列维度切分激活，把 TP 的 AllReduce 替换为 AllGather + ReduceScatter[2]
PP （Pipeline Parallelism，流水线并行）	模型按层切成多个 stage, stage 间 P2P 传激活；bubble 率是主要效率损失[3]
DP （Data Parallelism，数据并行）	每 worker 持完整模型副本，训练时反向用 AllReduce 同步梯度，通信量与参数量正相关
CP （Context Parallelism，上下文并行）	沿 token 维度把单条序列切到多卡，解决长上下文单卡装不下激活/KV 的问题；与 TP/DP/EP 正交
EP （Expert Parallelism，专家并行）	MoE 模型把不同 expert 分布到不同设备，用 AllToAll 实现 token 跨卡路由[4]
ZeRO (Zero Redundancy Optimizer)	把优化器状态/梯度/参数分片到 DP worker，消除冗余显存，代价是 AllGather/ReduceScatter[5]
MFU (Model FLOPS Utilization)	实际计算吞吐与芯片理论峰值算力的比值，通信空泡直接压低 MFU
Bubble 率	PP 中因 micro-batch 调度产生的 stage 空闲时间占比，随 PP 度增大而上升
Micro-batch	PP 中为填充流水线把 global batch 切成的更小批次
Overlap	通信与计算在不同硬件单元上并发执行以隐藏通信延迟，提升 MFU 的核心手段
PD 分离 (Prefill-Decode Disaggregation)	把 prefill 与 decode 部署到不同 GPU 集合，prefill 完成后通过 RDMA 推 KV cache 给 decode

@tbl-par-overview-glossary LLM 并行通信章共享名词

本章所有文档默认这些名词已定义，不再重复；子章节专属名词（如 MoE 的 Logical/Physical expert、Dispatch/Combine、Balancedness、MTP）见 08-专家并行/01-总览, CP 子名词（Ring/Ulysses/Pass-KV/Pass-Q 等）见 07-上下文并行/01-总览。

子文档索引 (Index)

前置导读：

2 并行切分的矩阵视角 — 每种并行切的是 transformer 张量的哪一维、维度正交叠加、通信原语的由来（推荐先读，建立心智模型）

基础并行策略：

3 张量并行 (TP) — TP 列/行切分、每层 AllReduce、TP 度与延迟关系
4.1 总览 — SP TP 组内序列切分、AllGather + ReduceScatter 替代 AllReduce
5 流水并行 (PP) — PP Stage 切分、P2P 通信、Bubble 率公式
6 数据并行 (DP) — DP 梯度同步、ZeRO 分级、训练/推理差异
07-上下文并行/ — CP 子章：Ring Attention、Ulysses、decode CP、异构 attention 通信
08-专家并行/ — EP 子章：MoE 路由、AllToAll、EPLB 负载均衡、DeepEP、通信建模、大规模实测

跨策略横向主题：

09-跨策略横向/ — 计算通信 overlap、推理部署模式（Prefill/Decode 不对称、PD 分离、KV cache 迁移）

参考资料

Shoeybi et al., Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism, arXiv:1909.08053, 2019. https://arxiv.org/abs/1909.08053
Korthikanti et al., Reducing Activation Recomputation in Large Transformer Models, MLSys 2023. https://arxiv.org/abs/2205.05198
Narayanan et al., Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM, SC 2021. https://arxiv.org/abs/2104.04473
Fedus et al., Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, JMLR 2022. https://arxiv.org/abs/2101.03961
Rajbhandari et al., ZeRO: Memory Optimizations Toward Training Trillion Parameter Models, SC 2020. https://arxiv.org/abs/1910.02054

被引用于（16）

Tier6-Model 文档
大模型通信互联知识库
总览interconnect / LLM并行通信 / 专家并行
推理服务化通信总览interconnect / 推理服务化通信
异步 Checkpointinterconnect / 集群可靠性
Straggler 检测与缓解interconnect / 集群可靠性
分布式 Checkpoint 通信interconnect / 集群可靠性
弹性训练interconnect / 集群可靠性
总览knowledge / 前沿模型追踪 / DeepSeek-V4
前沿模型追踪knowledge / 前沿模型追踪
大模型是什么knowledge / 大模型解构
总览knowledge / 大模型解构
总览knowledge / 大模型解构 / 预训练
训练循环与数据knowledge / 大模型解构 / 预训练
Interconnect 资源域knowledge / 推理性能建模
长上下文训练knowledge / 长上下文

范围与边界 (Scope)​

名词定义​

子文档索引 (Index)​

参考资料​

范围与边界 (Scope)

名词定义

子文档索引 (Index)

参考资料