跳到主要内容
Tier6-Model
头脑风暴
COP
互联通信
问题追踪
通用知识库
其他
开发计划
refs
技术规格
验证
2 篇文档带有标签「straggler」
查看所有标签
Straggler 检测与缓解
大规模训练里慢节点怎么发现和处理
集群可靠性总览
本章节范围:10K-100K GPU 规模 LLM 训练 / 推理集群的故障图谱、MTBF 量级、训练中断成本与主流缓解策略。