docs/interconnect 互联知识库维度缺口分析
名词定义
| 名词 | 定义 |
|---|---|
| RICE | Reach × Impact × Confidence / Effort,产品优先级排序方法 |
| Rail-Optimized Fat-tree (ROFT) | NVIDIA GPU 集群默认拓扑:同 rail 位置的 GPU 共享 leaf switch,TP 通信走 NVLink 不上网络,DP/EP 通信才走 rail 交换层 |
| SHARP | Scalable Hierarchical Aggregation and Reduction Protocol,NVIDIA IB 交换机上的网内 AllReduce offload |
| DCQCN | Data Center QCN,RoCE 场景下基于 ECN + rate-based 的拥塞控制协议 |
| HPCC | High Precision Congestion Control,Alibaba 基于 INT 的精确拥塞控制 |
| Spectrum-X | NVIDIA AI 专用以太网方案(Spectrum-4 交换机 + ConnectX-7 NIC + adaptive routing + 拥塞控制) |
| DistriFusion | MIT 提出的扩散模型分布式推理方法,利用 patch 并行 + 时间步间激活复用隐藏通信 (CVPR 2024) |
| PipeFusion | 扩散模型的 patch-level pipeline 并行 (NeurIPS 2025) |
| INT (In-band Network Telemetry) | 数据包携带逐跳交换机状态(队列深度/时延),用于精确拥塞感知 |
| CXL 3.0 Fabric | Compute Express Link 3.0 的多主机内存池化架构,支持跨节点共享内存 |
| Oversubscription | 网络过订阅比,下行端口总带宽 / 上行端口总带宽,>1:1 表示聚合层有带宽瓶颈 |
| OpenRLHF | 基于 Ray 的分布式 RLHF 训练框架,4 个模型(actor/critic/ref/reward)协同通信 |
候选清单(按维度)
维度 1: 技术栈层次缺失
- congestion-control-transport — 端到端拥塞控制专题(DCQCN / HPCC / Swift / UEC Transport),当前散在 ch12 但无独立系统性覆盖
- nic-smartnic-dpu — NIC/SmartNIC/DPU 架构层(ConnectX / BlueField / Broadcom Thor / AMD Pollara),RDMA 引擎内部、GPUDirect RDMA 路径
- in-network-computing — 网内计算(SHARP / SwitchML / ATP),ch04 有 NVLS 但没覆盖 IB 交换机侧的 in-switch reduction
- collective-comm-middleware — 集合通信中间件层(NCCL/RCCL/oneCCL 内部架构:channel/ring 选择、拓扑检测、env tuning)
- optical-physical-layer — 光互联物理层(CPO / LPO / 硅光 / 光交换)
维度 2: 跨章系统性主题
- end-to-end-congestion — 拥塞的全链路视角:NIC 发送侧 → 交换机队列 → 接收侧 ECN → 反馈环,统一贯穿 ch01/ch03/ch12
- power-thermal-comm — 功耗与热约束对通信的影响(SerDes 功耗占互联总功耗 60%+、降频对带宽影响)
- network-security-isolation — 多租户隔离 / 加密互联(IPsec-inline / MACsec 对带宽的 overhead)
- monitoring-telemetry — 网络可观测性(INT / streaming telemetry / perfquery / ibdiagnet)
- scheduling-placement-codesign — 作业调度与网络感知放置(拓扑感知 job scheduler、通信组与物理拓扑对齐)
维度 3: 工程落地维度
- nccl-tuning-guide — NCCL 调参实操(NCCL_ALGO / NCCL_PROTO / NCCL_MIN_NCHANNELS 等 env 变量与性能影响)
- network-benchmarking — 互联性能基准测试方法论(ib_write_bw / nccl-tests / all_reduce_perf 的正确跑法与结果解读)
- fabric-diagnostics — Fabric 故障诊断(ibdiagnet / perfquery / SM 日志)
- capacity-planning — 网络容量规划(给定并行策略 → 所需带宽 → 过订阅比 → 交换机选型)
- deployment-checklist — 大规模集群网络部署检查清单(布线验证 / BER / SM 配置)
维度 4: 新兴技术方向
- cpo-silicon-photonics — Co-Packaged Optics / 硅光引擎
- cxl-fabric-pooling — CXL 3.0 fabric + 内存池化(KV cache / activation offload)
- chiplet-interconnect — Chiplet 间互联标准(UCIe / BoW)
- 800g-1.6t-ethernet — 800G/1.6T 以太网演进(PAM4 / SerDes 功耗 / lane 数 vs 速率)
- uec-transport-protocol — Ultra Ethernet 传输协议栈细节(packet spraying + OOO + 无 PFC)
- ai-ethernet-fabric — AI 专用以太网方案(Spectrum-X / Jericho3-AI)
维度 5: 经济与决策维度
- network-tco-model — 网络 TCO 建模方法(交换机 + 光模块 + NIC + 线缆 + 电力 + 冷却)
- cost-per-bisection-bw — 各拓扑的单位割集带宽成本对比
- oversubscription-tradeoff — 过订阅比与真实 workload 性能的量化关系(1:1 vs 2:1 vs 3:1 对 MFU 影响)
- ib-vs-ethernet-decision — IB vs Ethernet 选型决策框架
- upgrade-path-roi — 代际升级 ROI(NDR→XDR / 400G→800G)
维度 6: 新兴 workload 通信特征
- video-diffusion-comm — 视频生成/扩散模型通信(DistriFusion patch 并行 / PipeFusion / 3D-UNet SP)
- multimodal-hybrid-parallel — 多模态模型异构并行(vision encoder + LLM backbone 跨模态通信)
- rlhf-actor-critic-comm — RLHF/PPO 训练 actor-critic 通信(policy ↔ reward ↔ reference 权重同步)
- moe-ultra-scale — 超大规模 MoE(256-2048 experts)AllToAll 通信爆炸
- online-continual-learning — 在线持续学习的流式梯度通信
- multi-agent-inference — Multi-agent / Compound AI 系统服务间通信
维度 7: 章内深度缺口
- ch01-optical — 光互联/CPO/LPO 独立篇
- ch02-rail-optimized-roft — Rail-Optimized Fat-tree 独立篇
- ch02-hyperx — HyperX(Hamming graph)拓扑
- ch03-congestion-aware-routing — 拥塞感知路由的量化建模
- ch04-hierarchical-algorithms — 分层集合通信算法(2D-Ring / 2D-HD / NCCL channel-based)
- ch04-nccl-implementation — NCCL 内部实现架构
- ch05-cp-advanced — CP 高级变体(Striped Attention / DeepSeek-Ulysses)
- ch06-congestion-model — 拥塞对通信延迟的建模(alpha-beta 无竞争假设突破)
- ch10-speculative-decode — 投机解码通信模式
- ch10-long-context-inference — 百万 token 推理的 CP 通信
- ch11-sdc-detection — SDC 检测机制深化
- ch12-uec-transport-detail — UEC 传输协议细节
业界对标
| 对标来源 | 我们没覆盖/覆盖不足 | 验证 URL |
|---|---|---|
| NVIDIA SHARP | IB 交换机侧 AllReduce offload,ch04 只写 NVLS | https://developer.nvidia.com/blog/advancing-performance-with-nvidia-sharp-in-network-computing/ |
| DCQCN / HPCC / Swift | 端到端拥塞控制专题空白 | https://hpcc-group.github.io/ |
| Spectrum-X AI Ethernet | AI 专用以太网 fabric 架构无独立覆盖 | https://www.nvidia.com/en-us/networking/spectrumx/ |
| CXL 3.0/4.0 Memory Pooling | KV cache 池化硬件基础仅 ch10 一句提及 | https://arxiv.org/html/2512.11920v1 |
| DistriFusion / PipeFusion | 非 LLM 扩散模型通信模式空白 | https://arxiv.org/abs/2402.19481 |
| Spectrum-X Telemetry | AI 集群网络可观测性无覆盖 | https://developer.nvidia.com/blog/next-generation-ai-factory-telemetry-with-nvidia-spectrum-x-ethernet/ |
| OpenRLHF | Actor-Critic 多模型协同通信未覆盖 | https://github.com/openrlhf/openrlhf |
| High-speed Networking for Giga-Scale AI Factories | Spectrum-X 拥塞控制 + 集合通信优化全景 | https://arxiv.org/pdf/2605.21187 |
收敛矩阵(RICE)
评分校准:项目核心价值 = 性能建模/仿真精度 + 拓扑/部署决策支持。
| # | 候选 | 维度 | R | I | C | E(周) | RICE | 理由 |
|---|---|---|---|---|---|---|---|---|
| 1 | ch02-rail-optimized-roft | D7 | 8 | 2 | 0.9 | 1.5 | 9.6 | 所有 NVIDIA 集群默认拓扑,仿真必须建模 rail 结构 |
| 2 | moe-ultra-scale | D6 | 7 | 2 | 0.8 | 1.5 | 7.5 | DeepSeek-V4 256 expert → AllToAll 爆炸,ch08 案例直接需要 |
| 3 | ch06-congestion-model | D7 | 8 | 3 | 0.8 | 3 | 6.4 | alpha-beta 无竞争假设是已知精度天花板 |
| 4 | network-benchmarking | D3 | 7 | 2 | 0.9 | 2 | 6.3 | ch06 参数标定的数据来源方法论 |
| 5 | ch04-hierarchical-algorithms | D7 | 7 | 2 | 0.85 | 2 | 6.0 | NCCL 实际用 2D-Ring/2D-HD 不是纯 ring |
| 6 | oversubscription-tradeoff | D5 | 7 | 2 | 0.8 | 2 | 5.6 | 过订阅比是拓扑选型第一参数 |
| 7 | in-network-computing (SHARP) | D1 | 7 | 2 | 0.8 | 2 | 5.6 | SHARP 把 AllReduce 延迟减半,不建模则 IB 预测偏高 |
| 8 | nccl-tuning-guide | D3 | 6 | 1 | 0.9 | 1 | 5.4 | 仿真对齐实测时 NCCL env 直接改变通信行为 |
| 9 | congestion-control-transport | D1 | 8 | 3 | 0.8 | 4 | 4.8 | G5 仿真精度最大缺口,与 #3 是同一主题的机制侧 |
| 10 | ch03-congestion-aware-routing | D7 | 6 | 2 | 0.8 | 2 | 4.8 | 自适应路由量化建模 |
| 11 | ch10-speculative-decode | D7 | 6 | 2 | 0.8 | 2 | 4.8 | 推理新增通信模式 |
| 12 | ch10-long-context-inference | D7 | 6 | 2 | 0.8 | 2 | 4.8 | 百万 token 推理 CP 通信 |
| 13 | cost-per-bisection-bw | D5 | 6 | 1 | 0.8 | 1 | 4.8 | 拓扑成本归一化对比 |
| 14 | end-to-end-congestion | D2 | 8 | 3 | 0.8 | 5 | 3.8 | NIC→switch→receiver 全景,与 #3/#9 合并为新章 |
| 15 | scheduling-placement-codesign | D2 | 7 | 2 | 0.75 | 3 | 3.5 | Placement 对齐/错位影响 MFU 可达 20%+ |
| 16 | video-diffusion-comm | D6 | 5 | 2 | 0.7 | 2 | 3.5 | DistriFusion/PipeFusion patch 并行 |
| 17 | multimodal-hybrid-parallel | D6 | 6 | 2 | 0.7 | 2.5 | 3.4 | 多模态异构并行 |
| 18 | rlhf-actor-critic-comm | D6 | 6 | 2 | 0.7 | 2.5 | 3.4 | 4 模型协同训练通信 |
| 19 | uec-transport-protocol | D4 | 6 | 2 | 0.7 | 2.5 | 3.4 | UEC 去 PFC 协议栈细节 |
| 20 | network-tco-model | D5 | 7 | 2 | 0.7 | 3 | 3.3 | 网络 TCO 方法论 |
| 21 | capacity-planning | D3 | 7 | 2 | 0.7 | 3 | 3.3 | 并行策略 → 带宽需求 → 选型 |
RICE < 3.0 不列入(optical-physical / chiplet / NIC-DPU / power-thermal / security / deployment-checklist / online-learning / multi-agent)。
落地优先级
P0(RICE ≥ 5.6,直接影响仿真精度)
| 候选 | 落点 | 下一步 |
|---|---|---|
| ch02-rail-optimized-roft | docs/interconnect/02-网络拓扑/ 新篇 | iforge-research 单篇 |
| ch06-congestion-model | docs/interconnect/06-通信性能建模/ 新篇 | iforge-research 单篇 |
| moe-ultra-scale | docs/interconnect/05-LLM并行通信/08-专家并行/ 扩展 | iforge-research 单篇 |
| network-benchmarking | docs/interconnect/06-通信性能建模/ 新篇 | iforge-research 单篇 |
| ch04-hierarchical-algorithms | docs/interconnect/04-集合通信/ 新篇 | iforge-research 单篇 |
| oversubscription-tradeoff | docs/interconnect/02-网络拓扑/ 新篇或 ch09 扩展 | 待定落点 |
| in-network-computing (SHARP) | docs/interconnect/04-集合通信/ 新篇 | iforge-research 单篇 |
P1(RICE 3.5-5.5,决策支持与覆盖完整性)
| 候选 | 建议落点 |
|---|---|
| congestion-control-transport + end-to-end-congestion | 合并为新独立章 ch13-拥塞控制(贯穿机制+建模+对集合通信影响) |
| nccl-tuning-guide | ch04 或独立工程指南 |
| ch03-congestion-aware-routing | ch03 新篇 |
| ch10-speculative-decode | ch10 新篇(规划中) |
| ch10-long-context-inference | ch10 新篇(规划中) |
| cost-per-bisection-bw | ch02 或 ch09 |
| scheduling-placement-codesign | 跨章主题,可放 ch05 跨策略横向 |
| video-diffusion-comm | ch05 扩展或新 ch14 |
P2(RICE < 3.5,未来扩展)
multimodal-hybrid-parallel / rlhf-actor-critic-comm / uec-transport-protocol / network-tco-model / capacity-planning / cxl-fabric-pooling / ai-ethernet-fabric / optical-physical / chiplet / NIC-DPU / power-thermal / security-isolation。
开放问题
- 拥塞专题落点:独立成 ch13?还是拆为 ch06 扩展(建模侧)+ ch12 扩展(机制侧)?
- 经济维度落点:oversubscription / TCO / cost-per-BW 独立成章还是散入各拓扑篇?
- 非 LLM workload(diffusion / RLHF / multimodal):扩展 ch05 还是新开 ch14-非LLM通信模式?
- NCCL 相关内容归属:hierarchical-algorithms 归 ch04(算法侧)还是新建 ch-NCCL(实现侧)?nccl-tuning 归同一处还是工程指南独立?