跳到主要内容

大模型通信互联知识库

本知识库系统整理大模型训练与推理场景下的通信互联技术,覆盖从物理硬件协议到集合通信原语、性能建模与仿真验证的完整知识链路。定位为团队内部参考文档,兼顾技术深度与可查阅性。

域结构总览

核心问题文档数
01-硬件互联物理链路如何传输数据?各互联技术的带宽、延迟、协议效率是多少?9
02-网络拓扑多节点如何连接?Fat-tree、Torus、Dragonfly 各适用什么场景?10
03-路由算法数据包如何选路?ECMP、自适应路由、DOR、UGAL 如何影响性能?6
04-集合通信AllReduce、AllGather、AllToAll 等原语的算法与复杂度?11
05-LLM并行通信TP/PP/EP/DP 各并行策略产生什么通信模式?MoE EP 通信建模11
06-通信性能建模如何用数学模型量化延迟与带宽?alpha-beta 模型、多跳建模?6
07-仿真工具如何用 NS-3、SimAI、G5 等工具验证通信模型?5
08-拓扑寻优拓扑参数化编码、多目标搜索、ATOP / TopoOpt7
09-推理服务化通信PD 分离 / KV 池化 / Mooncake / DistServe / SGLang / Dynamo / cache-aware 调度 / reasoning 推理影响9
10-集群可靠性100K GPU 集群故障图谱、Straggler 检测、异步与分布式 checkpoint、弹性训练5
11-死锁与流控互联网络死锁如何形成?CBD / CDG 判据、分层破环、PFC 死锁、各 fabric 处理路线8

09-推理服务化通信 文档索引

文件内容
9.1 推理服务化通信总览推理服务化整体框架与子主题地图
9.2 Prefill/Decode 分离原理Prefill/Decode 分离原理、SLO 拆分、KV 传输代价
9.3 DistServeDistServe (OSDI 24):Goodput + 双 Placement 算法
9.4 MooncakeMooncake:KV-centric 架构(Conductor / Transfer Engine / Store)
9.5 SGLang PDSGLang PD:mini-LB / DP attention / Heterogeneous TP
9.6 NVIDIA DynamoNVIDIA Dynamo:Smart KV Router + KVBM + NIXL
9.7 KV cache 跨节点传输瓶颈KV cache 跨节点传输:RTT-bound vs BW-bound
9.9 Cache-aware 调度Prefix cache hit 优化:RadixAttention / STAR / Together CPD
9.12 Reasoning 模型推理通信Reasoning 长 CoT 对 decode 集群的压力与调度

@tbl-interconnect-readme-09 09-推理服务化通信 文档索引:文件、内容

10-集群可靠性 文档索引

文件内容
10.1 集群可靠性总览100K GPU 集群故障图谱、MTBF、ETTR 模型
10.2 Straggler 检测与缓解Straggler 检测(BOCD/GREYHOUND)与缓解(PipeMorph/Adaptra)
10.3 异步 Checkpoint异步 checkpoint 时序:两阶段重叠、CheckFreq 自适应频率、Gemini in-memory、framework async API 与一致性
10.4 分布式 Checkpoint 通信分布式 / sharded checkpoint 的跨节点通信代价:数据布局、Save/Load 协议、IO 带宽与传输路径
10.5 弹性训练弹性训练 rendezvous / NCCL watchdog 故障检测 / 4 框架对比 / communicator 重建代价

@tbl-interconnect-readme-10 10-集群可靠性 文档索引:文件、内容

@tbl-interconnect-readme-01 域结构总览:域、核心问题、文档数

域间依赖关系

01-硬件互联
|
v
02-网络拓扑 ------> 03-路由算法
|
v
04-集合通信 ----------------------> 09-推理服务化通信
| ^
v |
05-LLM并行通信 -----------------------+
|
v
06-通信性能建模 <---- 07-仿真工具(验证)
|
v
08-拓扑寻优(综合案例与工具链)
|
v
10-集群可靠性(横切:作用于所有上游域的故障与抖动)

阅读路径建议:

  • 快速入门:01-硬件互联/01-总览 → 04-集合通信 → 05-LLM并行通信
  • 性能分析:01-硬件互联 → 06-通信性能建模 → 07-仿真工具
  • 系统设计:02-网络拓扑 → 03-路由算法 → 04-集合通信
  • 推理部署:05-LLM并行通信 → 04-集合通信(AllToAll/EP)→ 09-推理服务化通信(PD 分离 / KV 调度)
  • 运维与可靠性:02-网络拓扑 → 03-路由算法 → 10-集群可靠性(Straggler / SDC / 故障图谱)
  • 拓扑选型与寻优:02-网络拓扑 → 08-拓扑寻优 → 07-前沿模型追踪 / DeepSeek-V4(工业案例验证)

01-硬件互联 文档索引

文件内容
1.1 总览互联技术横向对比、代际演进时间线、分层角色
1.2 NVLinkNVLink 协议规格、Flit 结构、带宽效率实测
1.3 NVSwitch + NVLSNVSwitch 交换架构、NVLS 网内计算机制
1.4 InfiniBandInfiniBand HDR/NDR/XDR 规格、RDMA 传输模型
1.5 RoCE (RDMA over Converged Ethernet)RoCE v1/v2 协议栈、拥塞控制、与 IB 的性能差距
1.6 PCIePCIe 代际规格、在 AI 系统中的基线角色
1.7 AMD xGMI / Infinity FabricAMD xGMI/Infinity Fabric、MI300X 互联架构
1.8 Google TPU ICIGoogle TPU ICI、2D/3D Torus/Mesh 拓扑配合
1.9 国产互联方案HCCS、PAXI、SG2262 C2C 等国产互联技术概览

@tbl-interconnect-readme-02 01-硬件互联 文档索引:文件、内容

02-网络拓扑 文档索引

文件内容
2.1 总览拓扑分类框架、评估指标体系(割集带宽、直径、成本)
2.2 RingRing 拓扑:带宽分析、AllReduce 匹配性
2.3 Fat-treeFat-tree/Clos 网络:无阻塞条件、过订阅比
2.4 DragonflyDragonfly/Dragonfly+ 拓扑:组间路由、UGAL 适配
2.6 Torus2D/3D Torus:割集带宽随维度缩放、TPU 部署案例
2.9 SlimFlySlimFly:低直径图、成本为 Clos 的 1/2
2.11 JellyfishJellyfish 随机正则图:吞吐比 Fat-tree 高 30%
2.13 ZCubeZCube:ATOP 自动搜索得到的低成本拓扑(SIGCOMM 2025,智谱 GLM-5.1 部署)
2.16 NVL72NVL72 全互联架构:NVSwitch 三层互联设计
2.17 厂商集群拓扑案例NVIDIA/Google/AMD/Intel/华为各厂商拓扑选型
2.18 拓扑横向对比各拓扑在 TP/PP/EP/DP 场景下的适配矩阵

@tbl-interconnect-readme-03 02-网络拓扑 文档索引:文件、内容

03-路由算法 文档索引

文件内容
3.1 总览路由算法分类、静态与自适应路由对比
3.2 ECMPECMP 等价多路径:哈希机制、流量不均衡问题
3.3 D-mod-kD-mod-k 确定性路由
3.4 自适应路由自适应路由:队列感知、拥塞避免策略
3.5 DORDOR 维度序路由:Torus/Mesh 上的无死锁保证
3.6 UGALUGAL 通用全局自适应负载均衡路由
3.7 Packet SprayingPacket Spraying:包级负载均衡、乱序代价
3.8 KSPK-Shortest Paths:非结构化拓扑的多路径方案
3.9 DQPLBDQPLB 多平面 QP 动态负载均衡(Meta NCCLX,Llama 4)
3.10 TE-CCLTE-CCL 集合通信流量工程(MILP 离线最优调度)
3.11 PLB / PRRPLB / PRR 主机驱动 Repath(拥塞+故障双触发)
3.12 SRv6SRv6 源路由(Microsoft Fairwater AI 集群部署)
3.13 MRCMRC 多路径可靠连接:per-packet spraying + OOO 直写(Stargate/Fairwater)
3.14 路由策略选型指南路由算法选型决策树:拓扑×流量模式×规模

@tbl-interconnect-readme-04 03-路由算法 文档索引:文件、内容

04-集合通信 文档索引

文件内容
4.1 总览集合通信原语全景、算法复杂度汇总
4.2 理论下界延迟下界、带宽下界推导框架、汇总表、综合下界、bisection 下界
4.3 P2P点对点通信:Send/Recv 原语、流水线并行基础
4.4 一对多Broadcast/Scatter:二叉树、流水线广播
4.5 多对一Reduce/Gather:规约树、带宽下界
4.6 ReduceScatterReduceScatter:序列并行的核心原语
4.7 AllGatherAllGather:Ring AllGather、与 ReduceScatter 的互补
4.8 AllReduceAllReduce:Ring/Double Binary Tree/Halving-Doubling
4.9 AllToAllAllToAll:MoE Expert 路由、Pairwise/Bruck 算法
4.10 NVLSNVLS 网内计算:NVSwitch 上的 AllReduce 加速
4.11 拓扑对集合通信的影响拓扑结构对集合通信性能的影响分析
4.12 端口模型k-port 硬件实现、成本与收益递减、瓶颈转移

@tbl-interconnect-readme-05 04-集合通信 文档索引:文件、内容

05-LLM并行通信 文档索引

文件内容
1 总览并行策略与通信原语的映射关系总览
3 张量并行 (TP)TP:列/行切分、每层 AllReduce、带宽敏感性
5 流水并行 (PP)PP:micro-batch 调度、bubble 率、P2P 通信量
6 数据并行 (DP)DP:梯度 AllReduce、ZeRO 分级优化
8.1 总览EP:MoE AllToAll、负载均衡、与 TP 组合
4.1 总览SP:长序列切分、AllGather+ReduceScatter
9.2 计算通信 Overlap计算通信 Overlap:DMA 并发、流水掩盖策略

@tbl-interconnect-readme-06 05-LLM并行通信 文档索引:文件、内容

06-通信性能建模 文档索引

文件内容
6.1 总览建模方法论:从单链路到集群的抽象层次
6.2 Alpha-Beta 模型α-β 基础公式、α 物理分解与协议切换、β S 曲线、LogP/LogGP
6.3 扩展模型PLogP 参数函数化、LoGPC 静态竞争、Fluid/Network Calculus、误差消除链
6.4 集合通信算法延迟公式各集合通信算法的延迟解析公式推导
6.5 多跳拓扑建模多跳路径带宽竞争建模、路由感知延迟估算
6.6 参数标定从实测数据标定 α、β、带宽效率系数
6.7 精度验证模型精度评估方法、与仿真/实测的对齐策略

@tbl-interconnect-readme-07 06-通信性能建模 文档索引:文件、内容

07-仿真工具 文档索引

文件内容
7.1 总览仿真工具生态全景、选型决策树
7.2 ASTRA-simASTRA-sim:集合通信+计算联合仿真框架
7.3 SimAISimAI:阿里达摩院的大规模互联仿真平台
7.4 NS-3NS-3:包级网络仿真、RoCE/IB 模型
7.5 SystemC / TLMSystemC/TLM:芯片级互联协议建模
7.6 分析式 vs NS-3 包级G5 vs SimAI:指令级仿真与流量仿真的对比分析

@tbl-interconnect-readme-08 07-仿真工具 文档索引:文件、内容

08-拓扑寻优 文档索引

文件内容
8.1 拓扑寻优总览拓扑寻优问题定义、目标函数、解空间
8.2 ATOPATOP 自动搜索得到的 ZCube 拓扑(SIGCOMM 2025)
8.3 TopoOptTopoOpt:CMU 早期自动拓扑搜索系统
8.4 多目标搜索算法对比NSGA-II / MOEA/D 等多目标优化算法应用
8.5 拓扑参数化编码方法拓扑解码方案:节点度数 / 边集合 / 层次结构编码
8.6 评估器与算法假设评估器分层、各算法对拓扑性质的假设依赖
8.7 工具链与开源资产业界开源拓扑寻优工具与资产盘点

@tbl-interconnect-readme-12 08-拓扑寻优 文档索引:文件、内容

11-死锁与流控 文档索引

文件内容
11.1 互联通信死锁与流控总览死锁本质(CBD / CDG)、两类成因、分层破环模型、各 fabric 处理路线导引
11.2 死锁理论基础Coffman 四条件、CDG 与 Dally-Seitz 定理、Duato 逃生通道理论、Glass-Ni turn model
11.3 流控与无损可丢背压为何制造死锁、credit vs PFC 背压机制、无损 vs 可丢取舍、UEC 去无损路线
11.4 PFC 死锁PFC 死锁成因(CBD/故障重路由)、Tagger、Flattened Clos、PFC watchdog 运维
11.5 协议事务层死锁请求-响应互锁、message class 虚网络破环、协议依赖图、CXL.cache 三类流控
11.6 各 fabric 死锁处理对比NVLink/UALink/InfiniBand/RoCE/Ultra Ethernet 死锁处理横向对比与选型
11.7 集合通信死锁NCCL 调用序与训练 hang、ring/tree 无环、NCCL_LAUNCH_ORDER_IMPLICIT、Flight Recorder 诊断
11.8 死锁检测与恢复避免 vs 恢复、超时检测、回滚/前进式恢复、故障重路由(Dmodc)、规模放大

@tbl-interconnect-readme-13 11-死锁与流控 文档索引:文件、内容