跳到主要内容

5 篇文档带有标签「fault-tolerance」

查看所有标签

弹性训练

Worker 动态加入与退出、Rendezvous 协议及 Membership 管理机制

集群可靠性总览

本章节范围:10K-100K GPU 规模 LLM 训练 / 推理集群的故障图谱、MTBF 量级、训练中断成本与主流缓解策略。