本章节范围:AI 训练 / 推理集群互联网络中的死锁问题——死锁如何形成、业界用哪些手段在各层打破循环依赖,以及不同互联 fabric 的处理路线对比
scale-up 总线到 scale-out 网络各用什么手段处理死锁
用 CDG 判据和破环理论分析网络死锁