硬件静默错误的根因、检测方法及对 AI 训练的威胁
跨节点 IO 带宽、Sharding 分片策略与传输路径设计
Worker 动态加入与退出、Rendezvous 协议及 Membership 管理机制
被动检测死锁的手段及规模故障下的恢复策略
本章节范围:10K-100K GPU 规模 LLM 训练 / 推理集群的故障图谱、MTBF 量级、训练中断成本与主流缓解策略。