PFC 死锁怎么形成、如何预防与运维
本章节范围:AI 训练 / 推理集群互联网络中的死锁问题——死锁如何形成、业界用哪些手段在各层打破循环依赖,以及不同互联 fabric 的处理路线对比
scale-up 总线到 scale-out 网络各用什么手段处理死锁
被动检测死锁的手段及规模故障下的恢复策略
用 CDG 判据和破环理论分析网络死锁
NCCL 调用序不一致如何导致训练 hang 及预防方法