大模型通信互联知识库

本知识库系统整理大模型训练与推理场景下的通信互联技术，覆盖从物理硬件协议到集合通信原语、性能建模与仿真验证的完整知识链路。定位为团队内部参考文档，兼顾技术深度与可查阅性。

域结构总览

域	核心问题	文档数
01-硬件互联	物理链路如何传输数据？各互联技术的带宽、延迟、协议效率是多少？	9
02-网络拓扑	多节点如何连接？Fat-tree、Torus、Dragonfly 各适用什么场景？	10
03-路由算法	数据包如何选路？ECMP、自适应路由、DOR、UGAL 如何影响性能？	6
04-集合通信	AllReduce、AllGather、AllToAll 等原语的算法与复杂度？	11
05-LLM并行通信	TP/PP/EP/DP 各并行策略产生什么通信模式？MoE EP 通信建模	11
06-通信性能建模	如何用数学模型量化延迟与带宽？alpha-beta 模型、多跳建模？	6
07-仿真工具	如何用 NS-3、SimAI、G5 等工具验证通信模型？	5
08-拓扑寻优	拓扑参数化编码、多目标搜索、ATOP / TopoOpt	7
09-推理服务化通信	PD 分离 / KV 池化 / Mooncake / DistServe / SGLang / Dynamo / cache-aware 调度 / reasoning 推理影响	9
10-集群可靠性	100K GPU 集群故障图谱、Straggler 检测、异步与分布式 checkpoint、弹性训练	5
11-死锁与流控	互联网络死锁如何形成？CBD / CDG 判据、分层破环、PFC 死锁、各 fabric 处理路线	8

09-推理服务化通信文档索引

文件	内容
9.1 推理服务化通信总览	推理服务化整体框架与子主题地图
9.2 Prefill/Decode 分离原理	Prefill/Decode 分离原理、SLO 拆分、KV 传输代价
9.3 DistServe	DistServe (OSDI 24)：Goodput + 双 Placement 算法
9.4 Mooncake	Mooncake：KV-centric 架构（Conductor / Transfer Engine / Store）
9.5 SGLang PD	SGLang PD：mini-LB / DP attention / Heterogeneous TP
9.6 NVIDIA Dynamo	NVIDIA Dynamo：Smart KV Router + KVBM + NIXL
9.7 KV cache 跨节点传输瓶颈	KV cache 跨节点传输：RTT-bound vs BW-bound
9.9 Cache-aware 调度	Prefix cache hit 优化：RadixAttention / STAR / Together CPD
9.12 Reasoning 模型推理通信	Reasoning 长 CoT 对 decode 集群的压力与调度

@tbl-interconnect-readme-09 09-推理服务化通信文档索引：文件、内容

10-集群可靠性文档索引

文件	内容
10.1 集群可靠性总览	100K GPU 集群故障图谱、MTBF、ETTR 模型
10.2 Straggler 检测与缓解	Straggler 检测（BOCD/GREYHOUND）与缓解（PipeMorph/Adaptra）
10.3 异步 Checkpoint	异步 checkpoint 时序：两阶段重叠、CheckFreq 自适应频率、Gemini in-memory、framework async API 与一致性
10.4 分布式 Checkpoint 通信	分布式 / sharded checkpoint 的跨节点通信代价：数据布局、Save/Load 协议、IO 带宽与传输路径
10.5 弹性训练	弹性训练 rendezvous / NCCL watchdog 故障检测 / 4 框架对比 / communicator 重建代价

@tbl-interconnect-readme-10 10-集群可靠性文档索引：文件、内容

@tbl-interconnect-readme-01 域结构总览：域、核心问题、文档数

域间依赖关系

01-硬件互联
    |
    v
02-网络拓扑  ------>  03-路由算法
    |
    v
04-集合通信  ----------------------> 09-推理服务化通信
    |                                     ^
    v                                     |
05-LLM并行通信  -----------------------+
    |
    v
06-通信性能建模  <----  07-仿真工具（验证）
    |
    v
08-拓扑寻优（综合案例与工具链）
    |
    v
10-集群可靠性（横切：作用于所有上游域的故障与抖动）

阅读路径建议：

快速入门：01-硬件互联/01-总览 → 04-集合通信 → 05-LLM并行通信
性能分析：01-硬件互联 → 06-通信性能建模 → 07-仿真工具
系统设计：02-网络拓扑 → 03-路由算法 → 04-集合通信
推理部署：05-LLM并行通信 → 04-集合通信（AllToAll/EP）→ 09-推理服务化通信（PD 分离 / KV 调度）
运维与可靠性：02-网络拓扑 → 03-路由算法 → 10-集群可靠性（Straggler / SDC / 故障图谱）
拓扑选型与寻优：02-网络拓扑 → 08-拓扑寻优 → 07-前沿模型追踪 / DeepSeek-V4（工业案例验证）

01-硬件互联文档索引

文件	内容
1.1 总览	互联技术横向对比、代际演进时间线、分层角色
1.2 NVLink	NVLink 协议规格、Flit 结构、带宽效率实测
1.3 NVSwitch + NVLS	NVSwitch 交换架构、NVLS 网内计算机制
1.4 InfiniBand	InfiniBand HDR/NDR/XDR 规格、RDMA 传输模型
1.5 RoCE (RDMA over Converged Ethernet)	RoCE v1/v2 协议栈、拥塞控制、与 IB 的性能差距
1.6 PCIe	PCIe 代际规格、在 AI 系统中的基线角色
1.7 AMD xGMI / Infinity Fabric	AMD xGMI/Infinity Fabric、MI300X 互联架构
1.8 Google TPU ICI	Google TPU ICI、2D/3D Torus/Mesh 拓扑配合
1.9 国产互联方案	HCCS、PAXI、SG2262 C2C 等国产互联技术概览

@tbl-interconnect-readme-02 01-硬件互联文档索引：文件、内容

02-网络拓扑文档索引

文件	内容
2.1 总览	拓扑分类框架、评估指标体系（割集带宽、直径、成本）
2.2 Ring	Ring 拓扑：带宽分析、AllReduce 匹配性
2.3 Fat-tree	Fat-tree/Clos 网络：无阻塞条件、过订阅比
2.4 Dragonfly	Dragonfly/Dragonfly+ 拓扑：组间路由、UGAL 适配
2.6 Torus	2D/3D Torus：割集带宽随维度缩放、TPU 部署案例
2.9 SlimFly	SlimFly：低直径图、成本为 Clos 的 1/2
2.11 Jellyfish	Jellyfish 随机正则图：吞吐比 Fat-tree 高 30%
2.13 ZCube	ZCube：ATOP 自动搜索得到的低成本拓扑（SIGCOMM 2025，智谱 GLM-5.1 部署）
2.16 NVL72	NVL72 全互联架构：NVSwitch 三层互联设计
2.17 厂商集群拓扑案例	NVIDIA/Google/AMD/Intel/华为各厂商拓扑选型
2.18 拓扑横向对比	各拓扑在 TP/PP/EP/DP 场景下的适配矩阵

@tbl-interconnect-readme-03 02-网络拓扑文档索引：文件、内容

03-路由算法文档索引

文件	内容
3.1 总览	路由算法分类、静态与自适应路由对比
3.2 ECMP	ECMP 等价多路径：哈希机制、流量不均衡问题
3.3 D-mod-k	D-mod-k 确定性路由
3.4 自适应路由	自适应路由：队列感知、拥塞避免策略
3.5 DOR	DOR 维度序路由：Torus/Mesh 上的无死锁保证
3.6 UGAL	UGAL 通用全局自适应负载均衡路由
3.7 Packet Spraying	Packet Spraying：包级负载均衡、乱序代价
3.8 KSP	K-Shortest Paths：非结构化拓扑的多路径方案
3.9 DQPLB	DQPLB 多平面 QP 动态负载均衡（Meta NCCLX，Llama 4）
3.10 TE-CCL	TE-CCL 集合通信流量工程（MILP 离线最优调度）
3.11 PLB / PRR	PLB / PRR 主机驱动 Repath（拥塞+故障双触发）
3.12 SRv6	SRv6 源路由（Microsoft Fairwater AI 集群部署）
3.13 MRC	MRC 多路径可靠连接：per-packet spraying + OOO 直写（Stargate/Fairwater）
3.14 路由策略选型指南	路由算法选型决策树：拓扑×流量模式×规模

@tbl-interconnect-readme-04 03-路由算法文档索引：文件、内容

04-集合通信文档索引

文件	内容
4.1 总览	集合通信原语全景、算法复杂度汇总
4.2 理论下界	延迟下界、带宽下界推导框架、汇总表、综合下界、bisection 下界
4.3 P2P	点对点通信：Send/Recv 原语、流水线并行基础
4.4 一对多	Broadcast/Scatter：二叉树、流水线广播
4.5 多对一	Reduce/Gather：规约树、带宽下界
4.6 ReduceScatter	ReduceScatter：序列并行的核心原语
4.7 AllGather	AllGather：Ring AllGather、与 ReduceScatter 的互补
4.8 AllReduce	AllReduce：Ring/Double Binary Tree/Halving-Doubling
4.9 AllToAll	AllToAll：MoE Expert 路由、Pairwise/Bruck 算法
4.10 NVLS	NVLS 网内计算：NVSwitch 上的 AllReduce 加速
4.11 拓扑对集合通信的影响	拓扑结构对集合通信性能的影响分析
4.12 端口模型	k-port 硬件实现、成本与收益递减、瓶颈转移

@tbl-interconnect-readme-05 04-集合通信文档索引：文件、内容

05-LLM并行通信文档索引

文件	内容
1 总览	并行策略与通信原语的映射关系总览
3 张量并行 (TP)	TP：列/行切分、每层 AllReduce、带宽敏感性
5 流水并行 (PP)	PP：micro-batch 调度、bubble 率、P2P 通信量
6 数据并行 (DP)	DP：梯度 AllReduce、ZeRO 分级优化
8.1 总览	EP：MoE AllToAll、负载均衡、与 TP 组合
4.1 总览	SP：长序列切分、AllGather+ReduceScatter
9.2 计算通信 Overlap	计算通信 Overlap：DMA 并发、流水掩盖策略

@tbl-interconnect-readme-06 05-LLM并行通信文档索引：文件、内容

06-通信性能建模文档索引

文件	内容
6.1 总览	建模方法论：从单链路到集群的抽象层次
6.2 Alpha-Beta 模型	α-β 基础公式、α 物理分解与协议切换、β S 曲线、LogP/LogGP
6.3 扩展模型	PLogP 参数函数化、LoGPC 静态竞争、Fluid/Network Calculus、误差消除链
6.4 集合通信算法延迟公式	各集合通信算法的延迟解析公式推导
6.5 多跳拓扑建模	多跳路径带宽竞争建模、路由感知延迟估算
6.6 参数标定	从实测数据标定 α、β、带宽效率系数
6.7 精度验证	模型精度评估方法、与仿真/实测的对齐策略

@tbl-interconnect-readme-07 06-通信性能建模文档索引：文件、内容

07-仿真工具文档索引

文件	内容
7.1 总览	仿真工具生态全景、选型决策树
7.2 ASTRA-sim	ASTRA-sim：集合通信+计算联合仿真框架
7.3 SimAI	SimAI：阿里达摩院的大规模互联仿真平台
7.4 NS-3	NS-3：包级网络仿真、RoCE/IB 模型
7.5 SystemC / TLM	SystemC/TLM：芯片级互联协议建模
7.6 分析式 vs NS-3 包级	G5 vs SimAI：指令级仿真与流量仿真的对比分析

@tbl-interconnect-readme-08 07-仿真工具文档索引：文件、内容

08-拓扑寻优文档索引

文件	内容
8.1 拓扑寻优总览	拓扑寻优问题定义、目标函数、解空间
8.2 ATOP	ATOP 自动搜索得到的 ZCube 拓扑（SIGCOMM 2025）
8.3 TopoOpt	TopoOpt：CMU 早期自动拓扑搜索系统
8.4 多目标搜索算法对比	NSGA-II / MOEA/D 等多目标优化算法应用
8.5 拓扑参数化编码方法	拓扑解码方案：节点度数 / 边集合 / 层次结构编码
8.6 评估器与算法假设	评估器分层、各算法对拓扑性质的假设依赖
8.7 工具链与开源资产	业界开源拓扑寻优工具与资产盘点

@tbl-interconnect-readme-12 08-拓扑寻优文档索引：文件、内容

11-死锁与流控文档索引

文件	内容
11.1 互联通信死锁与流控总览	死锁本质（CBD / CDG）、两类成因、分层破环模型、各 fabric 处理路线导引
11.2 死锁理论基础	Coffman 四条件、CDG 与 Dally-Seitz 定理、Duato 逃生通道理论、Glass-Ni turn model
11.3 流控与无损可丢	背压为何制造死锁、credit vs PFC 背压机制、无损 vs 可丢取舍、UEC 去无损路线
11.4 PFC 死锁	PFC 死锁成因（CBD/故障重路由）、Tagger、Flattened Clos、PFC watchdog 运维
11.5 协议事务层死锁	请求-响应互锁、message class 虚网络破环、协议依赖图、CXL.cache 三类流控
11.6 各 fabric 死锁处理对比	NVLink/UALink/InfiniBand/RoCE/Ultra Ethernet 死锁处理横向对比与选型
11.7 集合通信死锁	NCCL 调用序与训练 hang、ring/tree 无环、NCCL_LAUNCH_ORDER_IMPLICIT、Flight Recorder 诊断
11.8 死锁检测与恢复	避免 vs 恢复、超时检测、回滚/前进式恢复、故障重路由（Dmodc）、规模放大

@tbl-interconnect-readme-13 11-死锁与流控文档索引：文件、内容

域结构总览​

09-推理服务化通信 文档索引​

10-集群可靠性 文档索引​

域间依赖关系​

01-硬件互联 文档索引​

02-网络拓扑 文档索引​

03-路由算法 文档索引​

04-集合通信 文档索引​

05-LLM并行通信 文档索引​

06-通信性能建模 文档索引​

07-仿真工具 文档索引​

08-拓扑寻优 文档索引​

11-死锁与流控 文档索引​