跳到主要内容

总览

本章节范围:不绑定单一并行策略的横向主题——计算-通信 overlap、推理部署模式 (Prefill/Decode 不对称、PD 分离、KV cache 迁移)。 目标读者:需要跨并行策略权衡通信-计算调度、设计推理部署架构的工程师。

范围与边界 (Scope)

  • 包含:各并行策略的 overlap 潜力与实现;prefill/decode 不对称、共驻 vs 解耦、KV cache 迁移协议。
  • 不包含:
    • 各并行切的是 transformer 张量哪一维、维度正交叠加 → 见 02-并行切分的矩阵视角 (已前置,作为整章导读)
    • 单个并行策略的通信本体 → 见各策略文档 (TP / SP / PP / DP / CP / EP)
    • 推理服务化系统与调度 (Mooncake / SGLang / Dynamo) → 见 09-推理服务化通信

子文档索引 (Index)