跳到主要内容
Tier6-Model
头脑风暴
COP
互联通信
问题追踪
通用知识库
其他
开发计划
refs
技术规格
验证
2 篇文档带有标签「LLM-training」
查看所有标签
Silent Data Corruption (SDC)
硬件静默错误的根因、检测方法及对 AI 训练的威胁
Straggler 检测与缓解
大规模训练里慢节点怎么发现和处理