互联通信知识域扩充头脑风暴
背景
docs/interconnect/ 现有 9 个一级章节:01-硬件互联 / 02-网络拓扑 / 03-路由算法 / 04-集合通信 / 05-LLM并行通信 / 06-通信性能建模 / 07-仿真工具 / 08-DeepSeek-V4 / 08-拓扑寻优。整体覆盖了原理 + 拓扑 + 集合通信 + LLM 并行这条主线,缺少 2025-2026 工业热点(PD 分离、DeepEP、UALink/UEC、reasoning 推理、集群可靠性)。本次发散目标:列出值得调研、值得新建文档的方向,并排出写作优先级。
名词定义
推理部署
- PD 分离 (Prefill/Decode Disaggregation):把 LLM 推理的 prefill 阶段(计算 bound)和 decode 阶段(带宽 bound)拆到不同 GPU 集群上独立调度,跨集群传 KV cache。
- KV cache transfer: PD 分离架构下 prefill 端把生成的 KV cache 通过 RDMA / NVLink 送到 decode 端。
- Cache-aware scheduling:根据请求 prefix 与现有 KV cache 的命中关系决定路由到哪台 decode 节点。
- Speculative decoding:用小模型生成 draft token 序列,大模型并行验证,减少 decode 串行长度。
- Test-time scaling / reasoning model: o1 / DeepSeek R1 等模型通过延长生成 CoT 长度提升推理能力,对 decode 集群压力大幅增加。
并行通信
- EP (Expert Parallel): MoE 模型把不同 expert 放到不同 GPU 上,token 路由通过 all-to-all 通信。
- DeepEP: DeepSeek 开源的 EP 通信库,提供 normal 和 low-latency 两种 all-to-all kernel,深度集成 IBGDA。
- EPLB (Expert Parallel Load Balancing): DeepSeek 提出的 expert 负载均衡算法,通过 redundant expert(热门 expert 复制)平衡跨节点负载。
- IBGDA (InfiniBand GPU Direct Async): GPU 直接发起 RDMA verbs 而无需 CPU 介入,DeepEP 性能关键。
互联标准
- UALink (Ultra Accelerator Link): 2025-03 发布 1.0 规范,AMD / Intel / Broadcom 等推动的 NVLink 开放替代标准,定位 scale-up(机柜内)。
- UEC (Ultra Ethernet Consortium): 2025 发布 1.0 规范,AMD / Broadcom / Cisco / Meta / Microsoft 等推动,定位 scale-out(机柜间),替代 InfiniBand。
- CXL (Compute Express Link):基于 PCIe 物理层的内存语义互联,CXL 2.0 支持 switch 与池化,CXL 3.0 支持多 host 共享内存与 fabric。
在网计算
- SHARP (Scalable Hierarchical Aggregation and Reduction Protocol): NVIDIA Quantum / Spectrum 交换机内置的 reduction offload,把 all-reduce 部分聚合下沉到交换机。
- In-network aggregation:把集合通信中的 reduce 操作 offload 到网络设备(交换机 / SmartNIC),减少端到端 hop 数。
可靠性
- Straggler:分布式训练中明显慢于其他节点的节点,可由热、链路抖动、SDC 引起,会拖慢 pipeline 与同步集合通信。
- SDC (Silent Data Corruption):没有任何错误信号的位翻转,可能在 NIC / 链路 / 内存中发生,2024-2025 多家 hyperscaler 公开报告。
维度发散
发散出 14 个维度(A-N)后用 RICE 收敛为 6 个核心方向(B/C/D/G/I/L),其中 I(reasoning 推理通信)合并到 B 中作为子方向。其余 8 个维度归入 deferred(见 frontmatter)。
业界对标(webserp 2026-05 实测)
| 主题 | 关键来源 | 用途 |
|---|---|---|
| UALink 1.0 | ualinkconsortium.org 白皮书 / Synopsys UAL/UEC 验证 / codeworm.dev 2026-02 解读 | D-10 |
| UEC 1.0 | STORDIS UEC 解读 / Synopsys 文章 / OCP NETC-304 (futurememorystorage.com) | D-11 |
| CXL 3.0 内存池 | computeexpresslink.org Q3-2025 webinar / introl.com CXL 2025 / eetimes "GPUs to Memory Pools" | D-12, D-13 |
| CXL+LLM 推理 | "Amplifying Effective CXL Memory Bandwidth for LLM Inference" (arXiv 2509.03377) | D-13 |
| Mooncake | kvcache-ai/Mooncake GitHub / DeepWiki / UCSD CSE291A reading | B-04 |
| SGLang PD | sgl-project.github.io advanced_features/pd_disaggregation | B-05 |
| NVIDIA Dynamo | developer.nvidia.com "Reduce KV Cache Bottlenecks with NVIDIA Dynamo" | B-06 |
| KV 传输瓶颈 | "RTT- or Bandwidth-Bound? Demystifying the KV Cache Transfer ..." (ACM 2025) | B-07 |
| FlowKV | arXiv 2504.03775 | B-08 |
| TraCT CXL KV | arXiv 2512.18194 | B-10 |
| Mooncake-style Adaptive Rescheduling | arXiv 2510.13668 | B-09 |
| DeepEP | github.com/deepseek-ai/DeepEP / deepep.org / DeepWiki | C-14 |
| 大规模 EP 部署 | "Deploying DeepSeek with PD Disaggregation and Large-Scale EP on 96 H100" (LMSYS 2025-05-05) | C-16 |
| Azure DeepEP 调优 | techcommunity.microsoft.com Azure HPC blog | C-16 |
| 长上下文推理 CP | "Context Parallelism for Scalable Million-Token Inference" (arXiv 2411.01783) | B-11 |
| Reasoning inference scaling | introl.com 2025-12 Inference-Time Scaling / DeepSeek R1 部署文章 | B-12 |
| 分布式投机解码 | "Fast Collaborative Inference via Distributed Speculative Decoding" (arXiv 2512.16273) | B-13 |
| SHARP | developer.nvidia.com SHARP blog | G-15 |
| NetReduce | "NetReduce" (ASPLOS 2023, sands.kaust.edu.sa) | G-16 |
| Flare | arXiv 2106.15565 | G-16 |
| Reliability | "Revisiting Reliability in Large-Scale Machine Learning" (arXiv 2410.21680) | L-01 |
| Straggler-Resilient Pipeline | NSDI 26 "Attack of the Bubbles" | L-02 |
| xAI Colossus 互联 | nvidianews.nvidia.com Spectrum-X / Supermicro / naddod 100K GPU 解读 | F (deferred) |
候选清单(按方向)
B + I — 推理服务化通信(13 篇,新建 09-推理服务化通信/)
| # | 文件 | 单一问题 | 主要来源 |
|---|---|---|---|
| 01 | 01-总览.md | Prefill vs Decode 特征差异、为什么要服务化、PD 分离生态全景 | DistServe / Mooncake / SGLang docs |
| 02 | 02-pd分离原理.md | PD 分离的调度模型、SLO 拆分(TTFT vs TPOT) | DistServe OSDI 24 论文 |
| 03 | 03-distserve.md | DistServe 系统设计与实测 | DistServe OSDI 24 |
| 04 | 04-mooncake.md | Mooncake KV-centric 架构(Conductor / Messenger) | Mooncake GitHub / DeepWiki |
| 05 | 05-sglang-pd.md | SGLang PD 实现细节与部署形态 | sgl-project docs |
| 06 | 06-nvidia-dynamo.md | NVIDIA Dynamo 架构与 KV router | NVIDIA Dynamo blog |
| 07 | 07-kv传输瓶颈.md | KV 传输 RTT-bound vs BW-bound 解析 | SIGCOMM/ACM 2025 论文 |
| 08 | 08-flowkv.md | FlowKV 跨节点 KV 传输优化 | arXiv 2504.03775 |
| 09 | 09-cache-aware调度.md | Prefix cache hit / cache-aware 调度 | Together CPD / arXiv 2510.13668 |
| 10 | 10-cxl-rack-kv.md | TraCT 用 CXL 做 rack-scale KV 共享 | arXiv 2512.18194 |
| 11 | 11-长上下文推理通信.md | 1M token context parallel for inference | arXiv 2411.01783 |
| 12 | 12-reasoning推理通信.md | 长 CoT 对 decode 集群压力、动态长度调度 | DeepSeek R1 部署 / Inference-Time Scaling 综述 |
| 13 | 13-投机解码通信.md | Speculative decoding 的 draft-target 通信 | arXiv 2512.16273 |
C — MoE 专家并行通信深挖(4 篇,扩 05-LLM并行通信/)
| # | 文件 | 单一问题 | 主要来源 |
|---|---|---|---|
| 14 | 14-deepep库.md | DeepEP kernel 与 IBGDA 设计 | DeepEP GitHub / DeepWiki |
| 15 | 15-eplb负载均衡.md | EPLB 算法与 redundant expert 策略 | DeepSeek EPLB 报告 |
| 16 | 16-大规模ep实测.md | LMSYS 96 H100 EP 部署实测 | LMSYS blog 2025-05-05 |
| 17 | 17-ep通信建模.md | EP all-to-all 在带宽/时延的解析建模 | 综合 DeepEP / alpha-beta |
现有
05-专家并行.md保留为入门篇,新增 4 篇平级置于其后。
D — 新型互联标准(5 篇,扩 01-硬件互联/)
| # | 文件 | 单一问题 | 主要来源 |
|---|---|---|---|
| 10 | 10-ualink.md | UALink 1.0 spec 与 accelerator fabric | UALink Consortium 白皮书 |
| 11 | 11-ultra-ethernet.md | UEC 1.0 / 替代 IB 的开放协议栈 | STORDIS / Synopsys |
| 12 | 12-cxl.md | CXL 2.0/3.0 内存语义互联基础 | CXL Consortium webinar |
| 13 | 13-cxl-ai应用.md | CXL 在 LLM 推理的带宽放大实测 | arXiv 2509.03377 |
| 14 | 14-互联标准对比.md | NVLink/UALink/IB/UEC/CXL 分层对比 | 综合 |
G — In-Network Computing(3 篇,扩 04-集合通信/)
| # | 文件 | 单一问题 | 主要来源 |
|---|---|---|---|
| 15 | 15-sharp.md | NVIDIA SHARP v1/v2/v3 与 NCCL 集成 | NVIDIA developer blog |
| 16 | 16-学术在网聚合.md | NetReduce / Flare / ATP 横向对比 | ASPLOS 23 / arXiv 2106.15565 |
| 17 | 17-可编程交换p4.md | P4 在 AI 网络的 offload 与商业化 | SwitchML / Tofino 后续 |
L — 集群可靠性与 Straggler(6 篇,新建 10-集群可靠性/)
| # | 文件 | 单一问题 | 主要来源 |
|---|---|---|---|
| 01 | 01-总览.md | 100K GPU 集群故障图谱与 MTBF | arXiv 2410.21680 / Meta cluster lessons |
| 02 | 02-straggler.md | 慢节点检测算法与缓解策略 | NSDI 26 Attack of the Bubbles |
| 03 | 03-async-checkpoint.md | 异步 checkpoint 设计 | Megatron / DeepSpeed checkpoint |
| 04 | 04-分布式checkpoint通信.md | 分布式 checkpoint 通信代价 | NVIDIA / PyTorch 文档 |
| 05 | 05-弹性训练.md | torchelastic / Megatron-Resilience | PyTorch elastic docs |
| 06 | 06-sdc静默错误.md | NIC / 链路 / 内存 SDC 检测 | Google / Meta SDC 报告 |
收敛矩阵(RICE)
R = Reach(关心读者面),I = Impact(信息密度/独家性),C = Confidence(资料齐备度),E = Effort(撰写工作量,单位人日)。
P0(11 篇,第一批立刻写)
| 候选 | R | I | C | E | RICE | 备注 |
|---|---|---|---|---|---|---|
| C-14 DeepEP 库 | 10 | 3 | 0.8 | 1.0 | 24 | 工业事实标准,源码 + 文档齐 |
| D-10 UALink | 10 | 2 | 0.8 | 0.8 | 20 | 2025-03 新规范,业界焦点 |
| D-14 互联标准对比 | 10 | 2 | 0.8 | 0.8 | 20 | 高读者面、能复用现有 01 章内容 |
| B-02 PD 分离原理 | 9 | 2 | 0.8 | 0.8 | 18 | 2025 最强热点的入门篇 |
| B-04 Mooncake | 9 | 2 | 0.8 | 0.8 | 18 | 字节工业案例 + 开源 |
| C-15 EPLB 负载均衡 | 8 | 2 | 0.8 | 0.8 | 16 | 与 14 配套,DeepSeek 独家 |
| D-11 UEC | 8 | 2 | 0.8 | 0.8 | 16 | 与 D-10 并列焦点 |
| B-03 DistServe | 8 | 2 | 0.8 | 1.0 | 12 | OSDI 学术原型 |
| C-16 大规模 EP 实测 | 8 | 2 | 0.8 | 1.0 | 12 | LMSYS 96 H100 实测数据 |
| B-07 KV 传输瓶颈 | 8 | 2 | 0.8 | 1.0 | 12 | SIGCOMM 25 / 工业实测 |
| B-01 推理服务化总览 | 8 | 2 | 0.8 | 1.0 | 6→入口 | 入口文档,给 10-* 系列定基调 |
P1(10 篇,第二批)
| 候选 | R | I | C | E | RICE | 备注 |
|---|---|---|---|---|---|---|
| B-06 NVIDIA Dynamo | 8 | 2 | 0.8 | 1.0 | 12 | 工业新方案 |
| L-02 Straggler | 8 | 2 | 0.8 | 1.0 | 12 | NSDI 26 论文 + 工业痛点 |
| G-15 SHARP | 8 | 2 | 0.8 | 1.0 | 12 | NVIDIA 已部署 |
| B-12 Reasoning 推理通信 | 7 | 2 | 0.6 | 1.0 | 9 | 新角度,资料偏散 |
| L-01 可靠性总览 | 7 | 2 | 0.8 | 1.5 | 9 | 综合性入口 |
| B-09 Cache-aware 调度 | 7 | 2 | 0.8 | 1.5 | 8 | Together / arXiv |
| B-05 SGLang PD | 7 | 2 | 0.8 | 1.5 | 8 | 开源实现解读 |
| C-17 EP 通信建模 | 6 | 2 | 0.6 | 1.0 | 8 | 把 04 / 06 章模型套到 EP |
| D-12 CXL 基础 | 7 | 2 | 0.8 | 1.5 | 8 | 比 D-13 更基础 |
P2(10 篇,第三批 / 后续完善)
| 候选 | R | I | C | E | RICE | 备注 |
|---|---|---|---|---|---|---|
| L-05 弹性训练 | 6 | 2 | 0.8 | 1.5 | 6 | |
| B-11 长上下文推理 CP | 6 | 2 | 0.8 | 1.5 | 6 | |
| D-13 CXL 在 AI 应用 | 6 | 2 | 0.8 | 1.5 | 6 | |
| G-16 学术在网聚合 | 6 | 2 | 0.6 | 1.5 | 6 | |
| B-08 FlowKV | 5 | 2 | 0.8 | 1.5 | 6 | |
| B-13 投机解码通信 | 5 | 2 | 0.6 | 1.5 | 5 | |
| B-10 CXL rack KV | 5 | 2 | 0.6 | 1.5 | 5 | |
| L-04 分布式 checkpoint 通信 | 5 | 2 | 0.6 | 1.5 | 5 | |
| L-06 SDC 静默错误 | 5 | 2 | 0.6 | 1.5 | 5 | |
| L-03 Async checkpoint | 5 | 2 | 0.8 | 2.0 | 4 | |
| G-17 可编程交换 P4 | 4 | 2 | 0.6 | 1.5 | 4 |
决策痕迹
| 决策 | 理由 |
|---|---|
| I(Reasoning 推理通信)并入 B,不独立成章 | 通信角度本质属于服务化推理,独立成章会与 B 的 decode 调度内容重复 |
| 不新建 12/13-* 章节给 K/L 之外的方向 | 已 deferred 的方向(A/E/F/H/J/K/M/N)信息密度或紧迫性不足,先做核心 6 方向再回头评估 |
| C 不新建子目录而走平级文件 | 与现有 02-张量并行.md / 03-流水并行.md 编号风格一致;子目录会破坏 docusaurus 排序 |
| 优先级按 RICE,但 P0 内部按"是否能复用现有内容 + 资料完备度"二次排序 | 减少首批写作的 effort 风险 |
| 31 篇文档为目标,分 P0(11) / P1(10) / P2(10) 三批 | P0 占 35%,可在 4-6 周内完成;剩余按节奏推进 |
开放问题
- C 方向的 17-ep通信建模 是否值得独立成文?或并入 06-通信性能建模 章作为应用案例?
- L 方向的 SDC 静默错误(L-06)业界公开数据少(Google / Meta 内部论文居多),调研深度可能有限,要不要直接砍掉?
- B 方向的 13 篇是否过多?要不要把 SGLang/Dynamo 合并为"开源 PD 实现对比"一篇?
- 是否需要在
docs/interconnect/README.md总览页同步更新章节索引(新增 10/11 文件夹)? - 第一批 P0 写作的执行节奏:每周 2-3 篇 ok 吗?是否要每篇独立走 iforge-research 流程?
下一步
用户从 P0 11 篇中挑一篇启动 → 进 iforge-discuss → 路由到 iforge-research(调研类)写第一篇。建议起点:
- C-14 DeepEP 库 —— 资料最齐、读者最关心、与现有 08-DeepSeek-V4 强咬合
- 或 D-14 互联标准对比 —— 可先复用现有 01-硬件互联 内容,工作量低、读者面广
生成方式:iforge-brainstorm(extension-ideation 类型 / RICE 收敛) 业界对标轮:webserp 17 个查询、覆盖 2024-2026 关键论文与工业报告