跳到主要内容

docs/interconnect 互联知识库维度缺口分析

名词定义

名词定义
RICEReach × Impact × Confidence / Effort,产品优先级排序方法
Rail-Optimized Fat-tree (ROFT)NVIDIA GPU 集群默认拓扑:同 rail 位置的 GPU 共享 leaf switch,TP 通信走 NVLink 不上网络,DP/EP 通信才走 rail 交换层
SHARPScalable Hierarchical Aggregation and Reduction Protocol,NVIDIA IB 交换机上的网内 AllReduce offload
DCQCNData Center QCN,RoCE 场景下基于 ECN + rate-based 的拥塞控制协议
HPCCHigh Precision Congestion Control,Alibaba 基于 INT 的精确拥塞控制
Spectrum-XNVIDIA AI 专用以太网方案(Spectrum-4 交换机 + ConnectX-7 NIC + adaptive routing + 拥塞控制)
DistriFusionMIT 提出的扩散模型分布式推理方法,利用 patch 并行 + 时间步间激活复用隐藏通信 (CVPR 2024)
PipeFusion扩散模型的 patch-level pipeline 并行 (NeurIPS 2025)
INT (In-band Network Telemetry)数据包携带逐跳交换机状态(队列深度/时延),用于精确拥塞感知
CXL 3.0 FabricCompute Express Link 3.0 的多主机内存池化架构,支持跨节点共享内存
Oversubscription网络过订阅比,下行端口总带宽 / 上行端口总带宽,>1:1 表示聚合层有带宽瓶颈
OpenRLHF基于 Ray 的分布式 RLHF 训练框架,4 个模型(actor/critic/ref/reward)协同通信

候选清单(按维度)

维度 1: 技术栈层次缺失

  • congestion-control-transport — 端到端拥塞控制专题(DCQCN / HPCC / Swift / UEC Transport),当前散在 ch12 但无独立系统性覆盖
  • nic-smartnic-dpu — NIC/SmartNIC/DPU 架构层(ConnectX / BlueField / Broadcom Thor / AMD Pollara),RDMA 引擎内部、GPUDirect RDMA 路径
  • in-network-computing — 网内计算(SHARP / SwitchML / ATP),ch04 有 NVLS 但没覆盖 IB 交换机侧的 in-switch reduction
  • collective-comm-middleware — 集合通信中间件层(NCCL/RCCL/oneCCL 内部架构:channel/ring 选择、拓扑检测、env tuning)
  • optical-physical-layer — 光互联物理层(CPO / LPO / 硅光 / 光交换)

维度 2: 跨章系统性主题

  • end-to-end-congestion — 拥塞的全链路视角:NIC 发送侧 → 交换机队列 → 接收侧 ECN → 反馈环,统一贯穿 ch01/ch03/ch12
  • power-thermal-comm — 功耗与热约束对通信的影响(SerDes 功耗占互联总功耗 60%+、降频对带宽影响)
  • network-security-isolation — 多租户隔离 / 加密互联(IPsec-inline / MACsec 对带宽的 overhead)
  • monitoring-telemetry — 网络可观测性(INT / streaming telemetry / perfquery / ibdiagnet)
  • scheduling-placement-codesign — 作业调度与网络感知放置(拓扑感知 job scheduler、通信组与物理拓扑对齐)

维度 3: 工程落地维度

  • nccl-tuning-guide — NCCL 调参实操(NCCL_ALGO / NCCL_PROTO / NCCL_MIN_NCHANNELS 等 env 变量与性能影响)
  • network-benchmarking — 互联性能基准测试方法论(ib_write_bw / nccl-tests / all_reduce_perf 的正确跑法与结果解读)
  • fabric-diagnostics — Fabric 故障诊断(ibdiagnet / perfquery / SM 日志)
  • capacity-planning — 网络容量规划(给定并行策略 → 所需带宽 → 过订阅比 → 交换机选型)
  • deployment-checklist — 大规模集群网络部署检查清单(布线验证 / BER / SM 配置)

维度 4: 新兴技术方向

  • cpo-silicon-photonics — Co-Packaged Optics / 硅光引擎
  • cxl-fabric-pooling — CXL 3.0 fabric + 内存池化(KV cache / activation offload)
  • chiplet-interconnect — Chiplet 间互联标准(UCIe / BoW)
  • 800g-1.6t-ethernet — 800G/1.6T 以太网演进(PAM4 / SerDes 功耗 / lane 数 vs 速率)
  • uec-transport-protocol — Ultra Ethernet 传输协议栈细节(packet spraying + OOO + 无 PFC)
  • ai-ethernet-fabric — AI 专用以太网方案(Spectrum-X / Jericho3-AI)

维度 5: 经济与决策维度

  • network-tco-model — 网络 TCO 建模方法(交换机 + 光模块 + NIC + 线缆 + 电力 + 冷却)
  • cost-per-bisection-bw — 各拓扑的单位割集带宽成本对比
  • oversubscription-tradeoff — 过订阅比与真实 workload 性能的量化关系(1:1 vs 2:1 vs 3:1 对 MFU 影响)
  • ib-vs-ethernet-decision — IB vs Ethernet 选型决策框架
  • upgrade-path-roi — 代际升级 ROI(NDR→XDR / 400G→800G)

维度 6: 新兴 workload 通信特征

  • video-diffusion-comm — 视频生成/扩散模型通信(DistriFusion patch 并行 / PipeFusion / 3D-UNet SP)
  • multimodal-hybrid-parallel — 多模态模型异构并行(vision encoder + LLM backbone 跨模态通信)
  • rlhf-actor-critic-comm — RLHF/PPO 训练 actor-critic 通信(policy ↔ reward ↔ reference 权重同步)
  • moe-ultra-scale — 超大规模 MoE(256-2048 experts)AllToAll 通信爆炸
  • online-continual-learning — 在线持续学习的流式梯度通信
  • multi-agent-inference — Multi-agent / Compound AI 系统服务间通信

维度 7: 章内深度缺口

  • ch01-optical — 光互联/CPO/LPO 独立篇
  • ch02-rail-optimized-roft — Rail-Optimized Fat-tree 独立篇
  • ch02-hyperx — HyperX(Hamming graph)拓扑
  • ch03-congestion-aware-routing — 拥塞感知路由的量化建模
  • ch04-hierarchical-algorithms — 分层集合通信算法(2D-Ring / 2D-HD / NCCL channel-based)
  • ch04-nccl-implementation — NCCL 内部实现架构
  • ch05-cp-advanced — CP 高级变体(Striped Attention / DeepSeek-Ulysses)
  • ch06-congestion-model — 拥塞对通信延迟的建模(alpha-beta 无竞争假设突破)
  • ch10-speculative-decode — 投机解码通信模式
  • ch10-long-context-inference — 百万 token 推理的 CP 通信
  • ch11-sdc-detection — SDC 检测机制深化
  • ch12-uec-transport-detail — UEC 传输协议细节

业界对标

对标来源我们没覆盖/覆盖不足验证 URL
NVIDIA SHARPIB 交换机侧 AllReduce offload,ch04 只写 NVLShttps://developer.nvidia.com/blog/advancing-performance-with-nvidia-sharp-in-network-computing/
DCQCN / HPCC / Swift端到端拥塞控制专题空白https://hpcc-group.github.io/
Spectrum-X AI EthernetAI 专用以太网 fabric 架构无独立覆盖https://www.nvidia.com/en-us/networking/spectrumx/
CXL 3.0/4.0 Memory PoolingKV cache 池化硬件基础仅 ch10 一句提及https://arxiv.org/html/2512.11920v1
DistriFusion / PipeFusion非 LLM 扩散模型通信模式空白https://arxiv.org/abs/2402.19481
Spectrum-X TelemetryAI 集群网络可观测性无覆盖https://developer.nvidia.com/blog/next-generation-ai-factory-telemetry-with-nvidia-spectrum-x-ethernet/
OpenRLHFActor-Critic 多模型协同通信未覆盖https://github.com/openrlhf/openrlhf
High-speed Networking for Giga-Scale AI FactoriesSpectrum-X 拥塞控制 + 集合通信优化全景https://arxiv.org/pdf/2605.21187

收敛矩阵(RICE)

评分校准:项目核心价值 = 性能建模/仿真精度 + 拓扑/部署决策支持。

#候选维度RICE(周)RICE理由
1ch02-rail-optimized-roftD7820.91.59.6所有 NVIDIA 集群默认拓扑,仿真必须建模 rail 结构
2moe-ultra-scaleD6720.81.57.5DeepSeek-V4 256 expert → AllToAll 爆炸,ch08 案例直接需要
3ch06-congestion-modelD7830.836.4alpha-beta 无竞争假设是已知精度天花板
4network-benchmarkingD3720.926.3ch06 参数标定的数据来源方法论
5ch04-hierarchical-algorithmsD7720.8526.0NCCL 实际用 2D-Ring/2D-HD 不是纯 ring
6oversubscription-tradeoffD5720.825.6过订阅比是拓扑选型第一参数
7in-network-computing (SHARP)D1720.825.6SHARP 把 AllReduce 延迟减半,不建模则 IB 预测偏高
8nccl-tuning-guideD3610.915.4仿真对齐实测时 NCCL env 直接改变通信行为
9congestion-control-transportD1830.844.8G5 仿真精度最大缺口,与 #3 是同一主题的机制侧
10ch03-congestion-aware-routingD7620.824.8自适应路由量化建模
11ch10-speculative-decodeD7620.824.8推理新增通信模式
12ch10-long-context-inferenceD7620.824.8百万 token 推理 CP 通信
13cost-per-bisection-bwD5610.814.8拓扑成本归一化对比
14end-to-end-congestionD2830.853.8NIC→switch→receiver 全景,与 #3/#9 合并为新章
15scheduling-placement-codesignD2720.7533.5Placement 对齐/错位影响 MFU 可达 20%+
16video-diffusion-commD6520.723.5DistriFusion/PipeFusion patch 并行
17multimodal-hybrid-parallelD6620.72.53.4多模态异构并行
18rlhf-actor-critic-commD6620.72.53.44 模型协同训练通信
19uec-transport-protocolD4620.72.53.4UEC 去 PFC 协议栈细节
20network-tco-modelD5720.733.3网络 TCO 方法论
21capacity-planningD3720.733.3并行策略 → 带宽需求 → 选型

RICE < 3.0 不列入(optical-physical / chiplet / NIC-DPU / power-thermal / security / deployment-checklist / online-learning / multi-agent)。

落地优先级

P0(RICE ≥ 5.6,直接影响仿真精度)

候选落点下一步
ch02-rail-optimized-roftdocs/interconnect/02-网络拓扑/ 新篇iforge-research 单篇
ch06-congestion-modeldocs/interconnect/06-通信性能建模/ 新篇iforge-research 单篇
moe-ultra-scaledocs/interconnect/05-LLM并行通信/08-专家并行/ 扩展iforge-research 单篇
network-benchmarkingdocs/interconnect/06-通信性能建模/ 新篇iforge-research 单篇
ch04-hierarchical-algorithmsdocs/interconnect/04-集合通信/ 新篇iforge-research 单篇
oversubscription-tradeoffdocs/interconnect/02-网络拓扑/ 新篇或 ch09 扩展待定落点
in-network-computing (SHARP)docs/interconnect/04-集合通信/ 新篇iforge-research 单篇

P1(RICE 3.5-5.5,决策支持与覆盖完整性)

候选建议落点
congestion-control-transport + end-to-end-congestion合并为新独立章 ch13-拥塞控制(贯穿机制+建模+对集合通信影响)
nccl-tuning-guidech04 或独立工程指南
ch03-congestion-aware-routingch03 新篇
ch10-speculative-decodech10 新篇(规划中)
ch10-long-context-inferencech10 新篇(规划中)
cost-per-bisection-bwch02 或 ch09
scheduling-placement-codesign跨章主题,可放 ch05 跨策略横向
video-diffusion-commch05 扩展或新 ch14

P2(RICE < 3.5,未来扩展)

multimodal-hybrid-parallel / rlhf-actor-critic-comm / uec-transport-protocol / network-tco-model / capacity-planning / cxl-fabric-pooling / ai-ethernet-fabric / optical-physical / chiplet / NIC-DPU / power-thermal / security-isolation。

开放问题

  1. 拥塞专题落点:独立成 ch13?还是拆为 ch06 扩展(建模侧)+ ch12 扩展(机制侧)?
  2. 经济维度落点:oversubscription / TCO / cost-per-BW 独立成章还是散入各拓扑篇?
  3. 非 LLM workload(diffusion / RLHF / multimodal):扩展 ch05 还是新开 ch14-非LLM通信模式?
  4. NCCL 相关内容归属:hierarchical-algorithms 归 ch04(算法侧)还是新建 ch-NCCL(实现侧)?nccl-tuning 归同一处还是工程指南独立?