docs/interconnect 互联知识库维度缺口分析

名词定义

名词	定义
RICE	Reach × Impact × Confidence / Effort，产品优先级排序方法
Rail-Optimized Fat-tree (ROFT)	NVIDIA GPU 集群默认拓扑：同 rail 位置的 GPU 共享 leaf switch，TP 通信走 NVLink 不上网络，DP/EP 通信才走 rail 交换层
SHARP	Scalable Hierarchical Aggregation and Reduction Protocol，NVIDIA IB 交换机上的网内 AllReduce offload
DCQCN	Data Center QCN，RoCE 场景下基于 ECN + rate-based 的拥塞控制协议
HPCC	High Precision Congestion Control，Alibaba 基于 INT 的精确拥塞控制
Spectrum-X	NVIDIA AI 专用以太网方案（Spectrum-4 交换机 + ConnectX-7 NIC + adaptive routing + 拥塞控制）
DistriFusion	MIT 提出的扩散模型分布式推理方法，利用 patch 并行 + 时间步间激活复用隐藏通信 (CVPR 2024)
PipeFusion	扩散模型的 patch-level pipeline 并行 (NeurIPS 2025)
INT (In-band Network Telemetry)	数据包携带逐跳交换机状态（队列深度/时延），用于精确拥塞感知
CXL 3.0 Fabric	Compute Express Link 3.0 的多主机内存池化架构，支持跨节点共享内存
Oversubscription	网络过订阅比，下行端口总带宽 / 上行端口总带宽，>1:1 表示聚合层有带宽瓶颈
OpenRLHF	基于 Ray 的分布式 RLHF 训练框架，4 个模型（actor/critic/ref/reward）协同通信

候选清单（按维度）

维度 1: 技术栈层次缺失

congestion-control-transport — 端到端拥塞控制专题（DCQCN / HPCC / Swift / UEC Transport），当前散在 ch12 但无独立系统性覆盖
nic-smartnic-dpu — NIC/SmartNIC/DPU 架构层（ConnectX / BlueField / Broadcom Thor / AMD Pollara），RDMA 引擎内部、GPUDirect RDMA 路径
in-network-computing — 网内计算（SHARP / SwitchML / ATP），ch04 有 NVLS 但没覆盖 IB 交换机侧的 in-switch reduction
collective-comm-middleware — 集合通信中间件层（NCCL/RCCL/oneCCL 内部架构：channel/ring 选择、拓扑检测、env tuning）
optical-physical-layer — 光互联物理层（CPO / LPO / 硅光 / 光交换）

维度 2: 跨章系统性主题

end-to-end-congestion — 拥塞的全链路视角：NIC 发送侧 → 交换机队列 → 接收侧 ECN → 反馈环，统一贯穿 ch01/ch03/ch12
power-thermal-comm — 功耗与热约束对通信的影响（SerDes 功耗占互联总功耗 60%+、降频对带宽影响）
network-security-isolation — 多租户隔离 / 加密互联（IPsec-inline / MACsec 对带宽的 overhead）
monitoring-telemetry — 网络可观测性（INT / streaming telemetry / perfquery / ibdiagnet）
scheduling-placement-codesign — 作业调度与网络感知放置（拓扑感知 job scheduler、通信组与物理拓扑对齐）

维度 3: 工程落地维度

nccl-tuning-guide — NCCL 调参实操（NCCL_ALGO / NCCL_PROTO / NCCL_MIN_NCHANNELS 等 env 变量与性能影响）
network-benchmarking — 互联性能基准测试方法论（ib_write_bw / nccl-tests / all_reduce_perf 的正确跑法与结果解读）
fabric-diagnostics — Fabric 故障诊断（ibdiagnet / perfquery / SM 日志）
capacity-planning — 网络容量规划（给定并行策略 → 所需带宽 → 过订阅比 → 交换机选型）
deployment-checklist — 大规模集群网络部署检查清单（布线验证 / BER / SM 配置）

维度 4: 新兴技术方向

cpo-silicon-photonics — Co-Packaged Optics / 硅光引擎
cxl-fabric-pooling — CXL 3.0 fabric + 内存池化（KV cache / activation offload）
chiplet-interconnect — Chiplet 间互联标准（UCIe / BoW）
800g-1.6t-ethernet — 800G/1.6T 以太网演进（PAM4 / SerDes 功耗 / lane 数 vs 速率）
uec-transport-protocol — Ultra Ethernet 传输协议栈细节（packet spraying + OOO + 无 PFC）
ai-ethernet-fabric — AI 专用以太网方案（Spectrum-X / Jericho3-AI）

维度 5: 经济与决策维度

network-tco-model — 网络 TCO 建模方法（交换机 + 光模块 + NIC + 线缆 + 电力 + 冷却）
cost-per-bisection-bw — 各拓扑的单位割集带宽成本对比
oversubscription-tradeoff — 过订阅比与真实 workload 性能的量化关系（1:1 vs 2:1 vs 3:1 对 MFU 影响）
ib-vs-ethernet-decision — IB vs Ethernet 选型决策框架
upgrade-path-roi — 代际升级 ROI（NDR→XDR / 400G→800G）

维度 6: 新兴 workload 通信特征

video-diffusion-comm — 视频生成/扩散模型通信（DistriFusion patch 并行 / PipeFusion / 3D-UNet SP）
multimodal-hybrid-parallel — 多模态模型异构并行（vision encoder + LLM backbone 跨模态通信）
rlhf-actor-critic-comm — RLHF/PPO 训练 actor-critic 通信（policy ↔ reward ↔ reference 权重同步）
moe-ultra-scale — 超大规模 MoE（256-2048 experts）AllToAll 通信爆炸
online-continual-learning — 在线持续学习的流式梯度通信
multi-agent-inference — Multi-agent / Compound AI 系统服务间通信

维度 7: 章内深度缺口

ch01-optical — 光互联/CPO/LPO 独立篇
ch02-rail-optimized-roft — Rail-Optimized Fat-tree 独立篇
ch02-hyperx — HyperX（Hamming graph）拓扑
ch03-congestion-aware-routing — 拥塞感知路由的量化建模
ch04-hierarchical-algorithms — 分层集合通信算法（2D-Ring / 2D-HD / NCCL channel-based）
ch04-nccl-implementation — NCCL 内部实现架构
ch05-cp-advanced — CP 高级变体（Striped Attention / DeepSeek-Ulysses）
ch06-congestion-model — 拥塞对通信延迟的建模（alpha-beta 无竞争假设突破）
ch10-speculative-decode — 投机解码通信模式
ch10-long-context-inference — 百万 token 推理的 CP 通信
ch11-sdc-detection — SDC 检测机制深化
ch12-uec-transport-detail — UEC 传输协议细节

业界对标

对标来源	我们没覆盖/覆盖不足	验证 URL
NVIDIA SHARP	IB 交换机侧 AllReduce offload，ch04 只写 NVLS	https://developer.nvidia.com/blog/advancing-performance-with-nvidia-sharp-in-network-computing/
DCQCN / HPCC / Swift	端到端拥塞控制专题空白	https://hpcc-group.github.io/
Spectrum-X AI Ethernet	AI 专用以太网 fabric 架构无独立覆盖	https://www.nvidia.com/en-us/networking/spectrumx/
CXL 3.0/4.0 Memory Pooling	KV cache 池化硬件基础仅 ch10 一句提及	https://arxiv.org/html/2512.11920v1
DistriFusion / PipeFusion	非 LLM 扩散模型通信模式空白	https://arxiv.org/abs/2402.19481
Spectrum-X Telemetry	AI 集群网络可观测性无覆盖	https://developer.nvidia.com/blog/next-generation-ai-factory-telemetry-with-nvidia-spectrum-x-ethernet/
OpenRLHF	Actor-Critic 多模型协同通信未覆盖	https://github.com/openrlhf/openrlhf
High-speed Networking for Giga-Scale AI Factories	Spectrum-X 拥塞控制 + 集合通信优化全景	https://arxiv.org/pdf/2605.21187

收敛矩阵（RICE）

评分校准：项目核心价值 = 性能建模/仿真精度 + 拓扑/部署决策支持。

#	候选	维度	R	I	C	E(周)	RICE	理由
1	ch02-rail-optimized-roft	D7	8	2	0.9	1.5	9.6	所有 NVIDIA 集群默认拓扑，仿真必须建模 rail 结构
2	moe-ultra-scale	D6	7	2	0.8	1.5	7.5	DeepSeek-V4 256 expert → AllToAll 爆炸，ch08 案例直接需要
3	ch06-congestion-model	D7	8	3	0.8	3	6.4	alpha-beta 无竞争假设是已知精度天花板
4	network-benchmarking	D3	7	2	0.9	2	6.3	ch06 参数标定的数据来源方法论
5	ch04-hierarchical-algorithms	D7	7	2	0.85	2	6.0	NCCL 实际用 2D-Ring/2D-HD 不是纯 ring
6	oversubscription-tradeoff	D5	7	2	0.8	2	5.6	过订阅比是拓扑选型第一参数
7	in-network-computing (SHARP)	D1	7	2	0.8	2	5.6	SHARP 把 AllReduce 延迟减半，不建模则 IB 预测偏高
8	nccl-tuning-guide	D3	6	1	0.9	1	5.4	仿真对齐实测时 NCCL env 直接改变通信行为
9	congestion-control-transport	D1	8	3	0.8	4	4.8	G5 仿真精度最大缺口，与 #3 是同一主题的机制侧
10	ch03-congestion-aware-routing	D7	6	2	0.8	2	4.8	自适应路由量化建模
11	ch10-speculative-decode	D7	6	2	0.8	2	4.8	推理新增通信模式
12	ch10-long-context-inference	D7	6	2	0.8	2	4.8	百万 token 推理 CP 通信
13	cost-per-bisection-bw	D5	6	1	0.8	1	4.8	拓扑成本归一化对比
14	end-to-end-congestion	D2	8	3	0.8	5	3.8	NIC→switch→receiver 全景，与 #3/#9 合并为新章
15	scheduling-placement-codesign	D2	7	2	0.75	3	3.5	Placement 对齐/错位影响 MFU 可达 20%+
16	video-diffusion-comm	D6	5	2	0.7	2	3.5	DistriFusion/PipeFusion patch 并行
17	multimodal-hybrid-parallel	D6	6	2	0.7	2.5	3.4	多模态异构并行
18	rlhf-actor-critic-comm	D6	6	2	0.7	2.5	3.4	4 模型协同训练通信
19	uec-transport-protocol	D4	6	2	0.7	2.5	3.4	UEC 去 PFC 协议栈细节
20	network-tco-model	D5	7	2	0.7	3	3.3	网络 TCO 方法论
21	capacity-planning	D3	7	2	0.7	3	3.3	并行策略 → 带宽需求 → 选型

RICE < 3.0 不列入（optical-physical / chiplet / NIC-DPU / power-thermal / security / deployment-checklist / online-learning / multi-agent）。

落地优先级

P0（RICE ≥ 5.6，直接影响仿真精度）

候选	落点	下一步
ch02-rail-optimized-roft	`docs/interconnect/02-网络拓扑/` 新篇	iforge-research 单篇
ch06-congestion-model	`docs/interconnect/06-通信性能建模/` 新篇	iforge-research 单篇
moe-ultra-scale	`docs/interconnect/05-LLM并行通信/08-专家并行/` 扩展	iforge-research 单篇
network-benchmarking	`docs/interconnect/06-通信性能建模/` 新篇	iforge-research 单篇
ch04-hierarchical-algorithms	`docs/interconnect/04-集合通信/` 新篇	iforge-research 单篇
oversubscription-tradeoff	`docs/interconnect/02-网络拓扑/` 新篇或 ch09 扩展	待定落点
in-network-computing (SHARP)	`docs/interconnect/04-集合通信/` 新篇	iforge-research 单篇

P1（RICE 3.5-5.5，决策支持与覆盖完整性）

候选	建议落点
congestion-control-transport + end-to-end-congestion	合并为新独立章 ch13-拥塞控制（贯穿机制+建模+对集合通信影响）
nccl-tuning-guide	ch04 或独立工程指南
ch03-congestion-aware-routing	ch03 新篇
ch10-speculative-decode	ch10 新篇（规划中）
ch10-long-context-inference	ch10 新篇（规划中）
cost-per-bisection-bw	ch02 或 ch09
scheduling-placement-codesign	跨章主题，可放 ch05 跨策略横向
video-diffusion-comm	ch05 扩展或新 ch14

P2（RICE < 3.5，未来扩展）

multimodal-hybrid-parallel / rlhf-actor-critic-comm / uec-transport-protocol / network-tco-model / capacity-planning / cxl-fabric-pooling / ai-ethernet-fabric / optical-physical / chiplet / NIC-DPU / power-thermal / security-isolation。

开放问题

拥塞专题落点：独立成 ch13？还是拆为 ch06 扩展（建模侧）+ ch12 扩展（机制侧）？
经济维度落点：oversubscription / TCO / cost-per-BW 独立成章还是散入各拓扑篇？
非 LLM workload（diffusion / RLHF / multimodal）：扩展 ch05 还是新开 ch14-非LLM通信模式？
NCCL 相关内容归属：hierarchical-algorithms 归 ch04（算法侧）还是新建 ch-NCCL（实现侧）？nccl-tuning 归同一处还是工程指南独立？

名词定义​

候选清单（按维度）​

维度 1: 技术栈层次缺失​

维度 2: 跨章系统性主题​

维度 3: 工程落地维度​

维度 4: 新兴技术方向​

维度 5: 经济与决策维度​

维度 6: 新兴 workload 通信特征​

维度 7: 章内深度缺口​

业界对标​

收敛矩阵（RICE）​

落地优先级​

P0（RICE ≥ 5.6，直接影响仿真精度）​

P1（RICE 3.5-5.5，决策支持与覆盖完整性）​

P2（RICE < 3.5，未来扩展）​

开放问题​