异步 Checkpoint
两阶段 snapshot/persist 如何与训练重叠,以及一致性保证
两阶段 snapshot/persist 如何与训练重叠,以及一致性保证
本章节范围:序列并行 (Sequence Parallelism, SP) 的命名谱系、Megatron-SP 的精确机制(f/g 算子、激活显存公式)与 AG/RS×GEMM 的 overlap 内核实现。
本章节范围:不绑定单一并行策略的横向主题——计算-通信 overlap、推理部署模式 (Prefill/Decode 不对称、PD 分离、KV cache 迁移)。
AG/RS 与 GEMM 有数据依赖,三条路线怎么分块流水实现内核级融合