总览
本章节范围:不绑定单一并行策略的横向主题——计算-通信 overlap、推理部署模式 (Prefill/Decode 不对称、PD 分离、KV cache 迁移)。 目标读者:需要跨并行策略权衡通信-计算调度、设计推理部署架构的工程师。
范围与边界 (Scope)
- 包含:各并行策略的 overlap 潜力与实现;prefill/decode 不对称、共驻 vs 解耦、KV cache 迁移协议。
- 不包含:
- 各并行切的是 transformer 张量哪一维、维度正交叠加 → 见 02-并行切分的矩阵视角 (已前置,作为整章导读)
- 单个并行策略的通信本体 → 见各策略文档 (TP / SP / PP / DP / CP / EP)
- 推理服务化系统与调度 (Mooncake / SGLang / Dynamo) → 见 09-推理服务化通信
子文档索引 (Index)
- 9.2 计算通信 Overlap — 各策略的 overlap 潜力与实现方式
- 9.3 推理部署模式 — Prefill/Decode 不对称、共驻/解耦、KV cache 迁移协议