分布式 Checkpoint 通信
跨节点 IO 带宽、Sharding 分片策略与传输路径设计
跨节点 IO 带宽、Sharding 分片策略与传输路径设计
两阶段 snapshot/persist 如何与训练重叠,以及一致性保证
checkpoint 断点续跑、time-travel 调试、跨 session handoff 与 durable execution 如何保障长任务可靠
本章节范围:10K-100K GPU 规模 LLM 训练 / 推理集群的故障图谱、MTBF 量级、训练中断成本与主流缓解策略。