大模型通信互联知识库
本知识库系统整理大模型训练与推理场景下的通信互联技术,覆盖从物理硬件协议到集合通信原语、性能建模与仿真验证的完整知识链路。定位为团队内部参考文档,兼顾技术深度与可查阅性。
域结构总览
| 域 | 核心问题 | 文档数 |
|---|---|---|
| 01-硬件互联 | 物理链路如何传输数据?各互联技术的带宽、延迟、协议效率是多少? | 9 |
| 02-网络拓扑 | 多节点如何连接?Fat-tree、Torus、Dragonfly 各适用什么场景? | 10 |
| 03-路由算法 | 数据包如何选路?ECMP、自适应路由、DOR、UGAL 如何影响性能? | 6 |
| 04-集合通信 | AllReduce、AllGather、AllToAll 等原语的算法与复杂度? | 11 |
| 05-LLM并行通信 | TP/PP/EP/DP 各并行策略产生什么通信模式?MoE EP 通信建模 | 11 |
| 06-通信性能建模 | 如何用数学模型量化延迟与带宽?alpha-beta 模型、多跳建模? | 6 |
| 07-仿真工具 | 如何用 NS-3、SimAI、G5 等工具验证通信模型? | 5 |
| 08-拓扑寻优 | 拓扑参数化编码、多目标搜索、ATOP / TopoOpt | 7 |
| 09-推理服务化通信 | PD 分离 / KV 池化 / Mooncake / DistServe / SGLang / Dynamo / cache-aware 调度 / reasoning 推理影响 | 9 |
| 10-集群可靠性 | 100K GPU 集群故障图谱、Straggler 检测、异步与分布式 checkpoint、弹性训练 | 5 |
| 11-死锁与流控 | 互联网络死锁如何形成?CBD / CDG 判据、分层破环、PFC 死锁、各 fabric 处理路线 | 8 |
09-推理服务化通信 文档索引
| 文件 | 内容 |
|---|---|
| 9.1 推理服务化通信总览 | 推理服务化整体框架与子主题地图 |
| 9.2 Prefill/Decode 分离原理 | Prefill/Decode 分离原理、SLO 拆分、KV 传输代价 |
| 9.3 DistServe | DistServe (OSDI 24):Goodput + 双 Placement 算法 |
| 9.4 Mooncake | Mooncake:KV-centric 架构(Conductor / Transfer Engine / Store) |
| 9.5 SGLang PD | SGLang PD:mini-LB / DP attention / Heterogeneous TP |
| 9.6 NVIDIA Dynamo | NVIDIA Dynamo:Smart KV Router + KVBM + NIXL |
| 9.7 KV cache 跨节点传输瓶颈 | KV cache 跨节点传输:RTT-bound vs BW-bound |
| 9.9 Cache-aware 调度 | Prefix cache hit 优化:RadixAttention / STAR / Together CPD |
| 9.12 Reasoning 模型推理通信 | Reasoning 长 CoT 对 decode 集群的压力与调度 |
@tbl-interconnect-readme-09 09-推理服务化通信 文档索引:文件、内容
10-集群可靠性 文档索引
| 文件 | 内容 |
|---|---|
| 10.1 集群可靠性总览 | 100K GPU 集群故障图谱、MTBF、ETTR 模型 |
| 10.2 Straggler 检测与缓解 | Straggler 检测(BOCD/GREYHOUND)与缓解(PipeMorph/Adaptra) |
| 10.3 异步 Checkpoint | 异步 checkpoint 时序:两阶段重叠、CheckFreq 自适应频率、Gemini in-memory、framework async API 与一致性 |
| 10.4 分布式 Checkpoint 通信 | 分布式 / sharded checkpoint 的跨节点通信代价:数据布局、Save/Load 协议、IO 带宽与传输路径 |
| 10.5 弹性训练 | 弹性训练 rendezvous / NCCL watchdog 故障检测 / 4 框架对比 / communicator 重建代价 |
@tbl-interconnect-readme-10 10-集群可靠性 文档索引:文件、内容
@tbl-interconnect-readme-01 域结构总览:域、核心问题、文档数
域间依赖关系
01-硬件互联
|
v
02-网络拓扑 ------> 03-路由算法
|
v
04-集合通信 ----------------------> 09-推理服务化通信
| ^
v |
05-LLM并行通信 -----------------------+
|
v
06-通信性能建模 <---- 07-仿真工具(验证)
|
v
08-拓扑寻优(综合案例与工具链)
|
v
10-集群可靠性(横切:作用于所有上游域的故障与抖动)
阅读路径建议:
- 快速入门:01-硬件互联/01-总览 → 04-集合通信 → 05-LLM并行通信
- 性能分析:01-硬件互联 → 06-通信性能建模 → 07-仿真工具
- 系统设计:02-网络拓扑 → 03-路由算法 → 04-集合通信
- 推理部署:05-LLM并行通信 → 04-集合通信(AllToAll/EP)→ 09-推理服务化通信(PD 分离 / KV 调度)
- 运维与可靠性:02-网络拓扑 → 03-路由算法 → 10-集群可靠性(Straggler / SDC / 故障图谱)
- 拓扑选型与寻优:02-网络拓扑 → 08-拓扑寻优 → 07-前沿模型追踪 / DeepSeek-V4(工业案例验证)
01-硬件互联 文档索引
| 文件 | 内容 |
|---|---|
| 1.1 总览 | 互联技术横向对比、代际演进时间线、分层角色 |
| 1.2 NVLink | NVLink 协议规格、Flit 结构、带宽效率实测 |
| 1.3 NVSwitch + NVLS | NVSwitch 交换架构、NVLS 网内计算机制 |
| 1.4 InfiniBand | InfiniBand HDR/NDR/XDR 规格、RDMA 传输模型 |
| 1.5 RoCE (RDMA over Converged Ethernet) | RoCE v1/v2 协议栈、拥塞控制、与 IB 的性能差距 |
| 1.6 PCIe | PCIe 代际规格、在 AI 系统中的基线角色 |
| 1.7 AMD xGMI / Infinity Fabric | AMD xGMI/Infinity Fabric、MI300X 互联架构 |
| 1.8 Google TPU ICI | Google TPU ICI、2D/3D Torus/Mesh 拓扑配合 |
| 1.9 国产互联方案 | HCCS、PAXI、SG2262 C2C 等国产互联技术概览 |
@tbl-interconnect-readme-02 01-硬件互联 文档索引:文件、内容
02-网络拓扑 文档索引
| 文件 | 内容 |
|---|---|
| 2.1 总览 | 拓扑分类框架、评估指标体系(割集带宽、直径、成本) |
| 2.2 Ring | Ring 拓扑:带宽分析、AllReduce 匹配性 |
| 2.3 Fat-tree | Fat-tree/Clos 网络:无阻塞条件、过订阅比 |
| 2.4 Dragonfly | Dragonfly/Dragonfly+ 拓扑:组间路由、UGAL 适配 |
| 2.6 Torus | 2D/3D Torus:割集带宽随维度缩放、TPU 部署案例 |
| 2.9 SlimFly | SlimFly:低直径图、成本为 Clos 的 1/2 |
| 2.11 Jellyfish | Jellyfish 随机正则图:吞吐比 Fat-tree 高 30% |
| 2.13 ZCube | ZCube:ATOP 自动搜索得到的低成本拓扑(SIGCOMM 2025,智谱 GLM-5.1 部署) |
| 2.16 NVL72 | NVL72 全互联架构:NVSwitch 三层互联设计 |
| 2.17 厂商集群拓扑案例 | NVIDIA/Google/AMD/Intel/华为各厂商拓扑选型 |
| 2.18 拓扑横向对比 | 各拓扑在 TP/PP/EP/DP 场景下的适配矩阵 |
@tbl-interconnect-readme-03 02-网络拓扑 文档索引:文件、内容
03-路由算法 文档索引
| 文件 | 内容 |
|---|---|
| 3.1 总览 | 路由算法分类、静态与自适应路由对比 |
| 3.2 ECMP | ECMP 等价多路径:哈希机制、流量不均衡问题 |
| 3.3 D-mod-k | D-mod-k 确定性路由 |
| 3.4 自适应路由 | 自适应路由:队列感知、拥塞避免策略 |
| 3.5 DOR | DOR 维度序路由:Torus/Mesh 上的无死锁保证 |
| 3.6 UGAL | UGAL 通用全局自适应负载均衡路由 |
| 3.7 Packet Spraying | Packet Spraying:包级负载均衡、乱序代价 |
| 3.8 KSP | K-Shortest Paths:非结构化拓扑的多路径方案 |
| 3.9 DQPLB | DQPLB 多平面 QP 动态负载均衡(Meta NCCLX,Llama 4) |
| 3.10 TE-CCL | TE-CCL 集合通信流量工程(MILP 离线最优调度) |
| 3.11 PLB / PRR | PLB / PRR 主机驱动 Repath(拥塞+故障双触发) |
| 3.12 SRv6 | SRv6 源路由(Microsoft Fairwater AI 集群部署) |
| 3.13 MRC | MRC 多路径可靠连接:per-packet spraying + OOO 直写(Stargate/Fairwater) |
| 3.14 路由策略选型指南 | 路由算法选型决策树:拓扑×流量模式×规模 |
@tbl-interconnect-readme-04 03-路由算法 文档索引:文件、内容
04-集合通信 文档索引
| 文件 | 内容 |
|---|---|
| 4.1 总览 | 集合通信原语全景、算法复杂度汇总 |
| 4.2 理论下界 | 延迟下界、带宽下界推导框架、汇总表、综合下界、bisection 下界 |
| 4.3 P2P | 点对点通信:Send/Recv 原语、流水线并行基础 |
| 4.4 一对多 | Broadcast/Scatter:二叉树、流水线广播 |
| 4.5 多对一 | Reduce/Gather:规约树、带宽下界 |
| 4.6 ReduceScatter | ReduceScatter:序列并行的核心原语 |
| 4.7 AllGather | AllGather:Ring AllGather、与 ReduceScatter 的互补 |
| 4.8 AllReduce | AllReduce:Ring/Double Binary Tree/Halving-Doubling |
| 4.9 AllToAll | AllToAll:MoE Expert 路由、Pairwise/Bruck 算法 |
| 4.10 NVLS | NVLS 网内计算:NVSwitch 上的 AllReduce 加速 |
| 4.11 拓扑对集合通信的影响 | 拓扑结构对集合通信性能的影响分析 |
| 4.12 端口模型 | k-port 硬件实现、成本与收益递减、瓶颈转移 |
@tbl-interconnect-readme-05 04-集合通信 文档索引:文件、内容
05-LLM并行通信 文档索引
| 文件 | 内容 |
|---|---|
| 1 总览 | 并行策略与通信原语的映射关系总览 |
| 3 张量并行 (TP) | TP:列/行切分、每层 AllReduce、带宽敏感性 |
| 5 流水并行 (PP) | PP:micro-batch 调度、bubble 率、P2P 通信量 |
| 6 数据并行 (DP) | DP:梯度 AllReduce、ZeRO 分级优化 |
| 8.1 总览 | EP:MoE AllToAll、负载均衡、与 TP 组合 |
| 4.1 总览 | SP:长序列切分、AllGather+ReduceScatter |
| 9.2 计算通信 Overlap | 计算通信 Overlap:DMA 并发、流水掩盖策略 |
@tbl-interconnect-readme-06 05-LLM并行通信 文档索引:文件、内容
06-通信性能建模 文档索引
| 文件 | 内容 |
|---|---|
| 6.1 总览 | 建模方法论:从单链路到集群的抽象层次 |
| 6.2 Alpha-Beta 模型 | α-β 基础公式、α 物理分解与协议切换、β S 曲线、LogP/LogGP |
| 6.3 扩展模型 | PLogP 参数函数化、LoGPC 静态竞争、Fluid/Network Calculus、误差消除链 |
| 6.4 集合通信算法延迟公式 | 各集合通信算法的延迟解析公式推导 |
| 6.5 多跳拓扑建模 | 多跳路径带宽竞争建模、路由感知延迟估算 |
| 6.6 参数标定 | 从实测数据标定 α、β、带宽效率系数 |
| 6.7 精度验证 | 模型精度评估方法、与仿真/实测的对齐策略 |
@tbl-interconnect-readme-07 06-通信性能建模 文档索引:文件、内容
07-仿真工具 文档索引
| 文件 | 内容 |
|---|---|
| 7.1 总览 | 仿真工具生态全景、选型决策树 |
| 7.2 ASTRA-sim | ASTRA-sim:集合通信+计算联合仿真框架 |
| 7.3 SimAI | SimAI:阿里达摩院的大规模互联仿真平台 |
| 7.4 NS-3 | NS-3:包级网络仿真、RoCE/IB 模型 |
| 7.5 SystemC / TLM | SystemC/TLM:芯片级互联协议建模 |
| 7.6 分析式 vs NS-3 包级 | G5 vs SimAI:指令级仿真与流量仿真的对比分析 |
@tbl-interconnect-readme-08 07-仿真工具 文档索引:文件、内容
08-拓扑寻优 文档索引
| 文件 | 内容 |
|---|---|
| 8.1 拓扑寻优总览 | 拓扑寻优问题定义、目标函数、解空间 |
| 8.2 ATOP | ATOP 自动搜索得到的 ZCube 拓扑(SIGCOMM 2025) |
| 8.3 TopoOpt | TopoOpt:CMU 早期自动拓扑搜索系统 |
| 8.4 多目标搜索算法对比 | NSGA-II / MOEA/D 等多目标优化算法应用 |
| 8.5 拓扑参数化编码方法 | 拓扑解码方案:节点度数 / 边集合 / 层次结构编码 |
| 8.6 评估器与算法假设 | 评估器分层、各算法对拓扑性质的假设依赖 |
| 8.7 工具链与开源资产 | 业界开源拓扑寻优工具与资产盘点 |
@tbl-interconnect-readme-12 08-拓扑寻优 文档索引:文件、内容
11-死锁与流控 文档索引
| 文件 | 内容 |
|---|---|
| 11.1 互联通信死锁与流控总览 | 死锁本质(CBD / CDG)、两类成因、分层破环模型、各 fabric 处理路线导引 |
| 11.2 死锁理论基础 | Coffman 四条件、CDG 与 Dally-Seitz 定理、Duato 逃生通道理论、Glass-Ni turn model |
| 11.3 流控与无损可丢 | 背压为何制造死锁、credit vs PFC 背压机制、无损 vs 可丢取舍、UEC 去无损路线 |
| 11.4 PFC 死锁 | PFC 死锁成因(CBD/故障重路由)、Tagger、Flattened Clos、PFC watchdog 运维 |
| 11.5 协议事务层死锁 | 请求-响应互锁、message class 虚网络破环、协议依赖图、CXL.cache 三类流控 |
| 11.6 各 fabric 死锁处理对比 | NVLink/UALink/InfiniBand/RoCE/Ultra Ethernet 死锁处理横向对比与选型 |
| 11.7 集合通信死锁 | NCCL 调用序与训练 hang、ring/tree 无环、NCCL_LAUNCH_ORDER_IMPLICIT、Flight Recorder 诊断 |
| 11.8 死锁检测与恢复 | 避免 vs 恢复、超时检测、回滚/前进式恢复、故障重路由(Dmodc)、规模放大 |
@tbl-interconnect-readme-13 11-死锁与流控 文档索引:文件、内容