跳到主要内容

互联通信知识域扩充头脑风暴

背景

docs/interconnect/ 现有 9 个一级章节:01-硬件互联 / 02-网络拓扑 / 03-路由算法 / 04-集合通信 / 05-LLM并行通信 / 06-通信性能建模 / 07-仿真工具 / 08-DeepSeek-V4 / 08-拓扑寻优。整体覆盖了原理 + 拓扑 + 集合通信 + LLM 并行这条主线,缺少 2025-2026 工业热点(PD 分离、DeepEP、UALink/UEC、reasoning 推理、集群可靠性)。本次发散目标:列出值得调研、值得新建文档的方向,并排出写作优先级。

名词定义

推理部署

  • PD 分离 (Prefill/Decode Disaggregation):把 LLM 推理的 prefill 阶段(计算 bound)和 decode 阶段(带宽 bound)拆到不同 GPU 集群上独立调度,跨集群传 KV cache。
  • KV cache transfer: PD 分离架构下 prefill 端把生成的 KV cache 通过 RDMA / NVLink 送到 decode 端。
  • Cache-aware scheduling:根据请求 prefix 与现有 KV cache 的命中关系决定路由到哪台 decode 节点。
  • Speculative decoding:用小模型生成 draft token 序列,大模型并行验证,减少 decode 串行长度。
  • Test-time scaling / reasoning model: o1 / DeepSeek R1 等模型通过延长生成 CoT 长度提升推理能力,对 decode 集群压力大幅增加。

并行通信

  • EP (Expert Parallel): MoE 模型把不同 expert 放到不同 GPU 上,token 路由通过 all-to-all 通信。
  • DeepEP: DeepSeek 开源的 EP 通信库,提供 normal 和 low-latency 两种 all-to-all kernel,深度集成 IBGDA。
  • EPLB (Expert Parallel Load Balancing): DeepSeek 提出的 expert 负载均衡算法,通过 redundant expert(热门 expert 复制)平衡跨节点负载。
  • IBGDA (InfiniBand GPU Direct Async): GPU 直接发起 RDMA verbs 而无需 CPU 介入,DeepEP 性能关键。

互联标准

  • UALink (Ultra Accelerator Link): 2025-03 发布 1.0 规范,AMD / Intel / Broadcom 等推动的 NVLink 开放替代标准,定位 scale-up(机柜内)。
  • UEC (Ultra Ethernet Consortium): 2025 发布 1.0 规范,AMD / Broadcom / Cisco / Meta / Microsoft 等推动,定位 scale-out(机柜间),替代 InfiniBand。
  • CXL (Compute Express Link):基于 PCIe 物理层的内存语义互联,CXL 2.0 支持 switch 与池化,CXL 3.0 支持多 host 共享内存与 fabric。

在网计算

  • SHARP (Scalable Hierarchical Aggregation and Reduction Protocol): NVIDIA Quantum / Spectrum 交换机内置的 reduction offload,把 all-reduce 部分聚合下沉到交换机。
  • In-network aggregation:把集合通信中的 reduce 操作 offload 到网络设备(交换机 / SmartNIC),减少端到端 hop 数。

可靠性

  • Straggler:分布式训练中明显慢于其他节点的节点,可由热、链路抖动、SDC 引起,会拖慢 pipeline 与同步集合通信。
  • SDC (Silent Data Corruption):没有任何错误信号的位翻转,可能在 NIC / 链路 / 内存中发生,2024-2025 多家 hyperscaler 公开报告。

维度发散

发散出 14 个维度(A-N)后用 RICE 收敛为 6 个核心方向(B/C/D/G/I/L),其中 I(reasoning 推理通信)合并到 B 中作为子方向。其余 8 个维度归入 deferred(见 frontmatter)。

业界对标(webserp 2026-05 实测)

主题关键来源用途
UALink 1.0ualinkconsortium.org 白皮书 / Synopsys UAL/UEC 验证 / codeworm.dev 2026-02 解读D-10
UEC 1.0STORDIS UEC 解读 / Synopsys 文章 / OCP NETC-304 (futurememorystorage.com)D-11
CXL 3.0 内存池computeexpresslink.org Q3-2025 webinar / introl.com CXL 2025 / eetimes "GPUs to Memory Pools"D-12, D-13
CXL+LLM 推理"Amplifying Effective CXL Memory Bandwidth for LLM Inference" (arXiv 2509.03377)D-13
Mooncakekvcache-ai/Mooncake GitHub / DeepWiki / UCSD CSE291A readingB-04
SGLang PDsgl-project.github.io advanced_features/pd_disaggregationB-05
NVIDIA Dynamodeveloper.nvidia.com "Reduce KV Cache Bottlenecks with NVIDIA Dynamo"B-06
KV 传输瓶颈"RTT- or Bandwidth-Bound? Demystifying the KV Cache Transfer ..." (ACM 2025)B-07
FlowKVarXiv 2504.03775B-08
TraCT CXL KVarXiv 2512.18194B-10
Mooncake-style Adaptive ReschedulingarXiv 2510.13668B-09
DeepEPgithub.com/deepseek-ai/DeepEP / deepep.org / DeepWikiC-14
大规模 EP 部署"Deploying DeepSeek with PD Disaggregation and Large-Scale EP on 96 H100" (LMSYS 2025-05-05)C-16
Azure DeepEP 调优techcommunity.microsoft.com Azure HPC blogC-16
长上下文推理 CP"Context Parallelism for Scalable Million-Token Inference" (arXiv 2411.01783)B-11
Reasoning inference scalingintrol.com 2025-12 Inference-Time Scaling / DeepSeek R1 部署文章B-12
分布式投机解码"Fast Collaborative Inference via Distributed Speculative Decoding" (arXiv 2512.16273)B-13
SHARPdeveloper.nvidia.com SHARP blogG-15
NetReduce"NetReduce" (ASPLOS 2023, sands.kaust.edu.sa)G-16
FlarearXiv 2106.15565G-16
Reliability"Revisiting Reliability in Large-Scale Machine Learning" (arXiv 2410.21680)L-01
Straggler-Resilient PipelineNSDI 26 "Attack of the Bubbles"L-02
xAI Colossus 互联nvidianews.nvidia.com Spectrum-X / Supermicro / naddod 100K GPU 解读F (deferred)

候选清单(按方向)

B + I — 推理服务化通信(13 篇,新建 09-推理服务化通信/)

#文件单一问题主要来源
0101-总览.mdPrefill vs Decode 特征差异、为什么要服务化、PD 分离生态全景DistServe / Mooncake / SGLang docs
0202-pd分离原理.mdPD 分离的调度模型、SLO 拆分(TTFT vs TPOT)DistServe OSDI 24 论文
0303-distserve.mdDistServe 系统设计与实测DistServe OSDI 24
0404-mooncake.mdMooncake KV-centric 架构(Conductor / Messenger)Mooncake GitHub / DeepWiki
0505-sglang-pd.mdSGLang PD 实现细节与部署形态sgl-project docs
0606-nvidia-dynamo.mdNVIDIA Dynamo 架构与 KV routerNVIDIA Dynamo blog
0707-kv传输瓶颈.mdKV 传输 RTT-bound vs BW-bound 解析SIGCOMM/ACM 2025 论文
0808-flowkv.mdFlowKV 跨节点 KV 传输优化arXiv 2504.03775
0909-cache-aware调度.mdPrefix cache hit / cache-aware 调度Together CPD / arXiv 2510.13668
1010-cxl-rack-kv.mdTraCT 用 CXL 做 rack-scale KV 共享arXiv 2512.18194
1111-长上下文推理通信.md1M token context parallel for inferencearXiv 2411.01783
1212-reasoning推理通信.md长 CoT 对 decode 集群压力、动态长度调度DeepSeek R1 部署 / Inference-Time Scaling 综述
1313-投机解码通信.mdSpeculative decoding 的 draft-target 通信arXiv 2512.16273

C — MoE 专家并行通信深挖(4 篇,扩 05-LLM并行通信/)

#文件单一问题主要来源
1414-deepep库.mdDeepEP kernel 与 IBGDA 设计DeepEP GitHub / DeepWiki
1515-eplb负载均衡.mdEPLB 算法与 redundant expert 策略DeepSeek EPLB 报告
1616-大规模ep实测.mdLMSYS 96 H100 EP 部署实测LMSYS blog 2025-05-05
1717-ep通信建模.mdEP all-to-all 在带宽/时延的解析建模综合 DeepEP / alpha-beta

现有 05-专家并行.md 保留为入门篇,新增 4 篇平级置于其后。

D — 新型互联标准(5 篇,扩 01-硬件互联/)

#文件单一问题主要来源
1010-ualink.mdUALink 1.0 spec 与 accelerator fabricUALink Consortium 白皮书
1111-ultra-ethernet.mdUEC 1.0 / 替代 IB 的开放协议栈STORDIS / Synopsys
1212-cxl.mdCXL 2.0/3.0 内存语义互联基础CXL Consortium webinar
1313-cxl-ai应用.mdCXL 在 LLM 推理的带宽放大实测arXiv 2509.03377
1414-互联标准对比.mdNVLink/UALink/IB/UEC/CXL 分层对比综合

G — In-Network Computing(3 篇,扩 04-集合通信/)

#文件单一问题主要来源
1515-sharp.mdNVIDIA SHARP v1/v2/v3 与 NCCL 集成NVIDIA developer blog
1616-学术在网聚合.mdNetReduce / Flare / ATP 横向对比ASPLOS 23 / arXiv 2106.15565
1717-可编程交换p4.mdP4 在 AI 网络的 offload 与商业化SwitchML / Tofino 后续

L — 集群可靠性与 Straggler(6 篇,新建 10-集群可靠性/)

#文件单一问题主要来源
0101-总览.md100K GPU 集群故障图谱与 MTBFarXiv 2410.21680 / Meta cluster lessons
0202-straggler.md慢节点检测算法与缓解策略NSDI 26 Attack of the Bubbles
0303-async-checkpoint.md异步 checkpoint 设计Megatron / DeepSpeed checkpoint
0404-分布式checkpoint通信.md分布式 checkpoint 通信代价NVIDIA / PyTorch 文档
0505-弹性训练.mdtorchelastic / Megatron-ResiliencePyTorch elastic docs
0606-sdc静默错误.mdNIC / 链路 / 内存 SDC 检测Google / Meta SDC 报告

收敛矩阵(RICE)

R = Reach(关心读者面),I = Impact(信息密度/独家性),C = Confidence(资料齐备度),E = Effort(撰写工作量,单位人日)。

P0(11 篇,第一批立刻写)

候选RICERICE备注
C-14 DeepEP 库1030.81.024工业事实标准,源码 + 文档齐
D-10 UALink1020.80.8202025-03 新规范,业界焦点
D-14 互联标准对比1020.80.820高读者面、能复用现有 01 章内容
B-02 PD 分离原理920.80.8182025 最强热点的入门篇
B-04 Mooncake920.80.818字节工业案例 + 开源
C-15 EPLB 负载均衡820.80.816与 14 配套,DeepSeek 独家
D-11 UEC820.80.816与 D-10 并列焦点
B-03 DistServe820.81.012OSDI 学术原型
C-16 大规模 EP 实测820.81.012LMSYS 96 H100 实测数据
B-07 KV 传输瓶颈820.81.012SIGCOMM 25 / 工业实测
B-01 推理服务化总览820.81.06→入口入口文档,给 10-* 系列定基调

P1(10 篇,第二批)

候选RICERICE备注
B-06 NVIDIA Dynamo820.81.012工业新方案
L-02 Straggler820.81.012NSDI 26 论文 + 工业痛点
G-15 SHARP820.81.012NVIDIA 已部署
B-12 Reasoning 推理通信720.61.09新角度,资料偏散
L-01 可靠性总览720.81.59综合性入口
B-09 Cache-aware 调度720.81.58Together / arXiv
B-05 SGLang PD720.81.58开源实现解读
C-17 EP 通信建模620.61.08把 04 / 06 章模型套到 EP
D-12 CXL 基础720.81.58比 D-13 更基础

P2(10 篇,第三批 / 后续完善)

候选RICERICE备注
L-05 弹性训练620.81.56
B-11 长上下文推理 CP620.81.56
D-13 CXL 在 AI 应用620.81.56
G-16 学术在网聚合620.61.56
B-08 FlowKV520.81.56
B-13 投机解码通信520.61.55
B-10 CXL rack KV520.61.55
L-04 分布式 checkpoint 通信520.61.55
L-06 SDC 静默错误520.61.55
L-03 Async checkpoint520.82.04
G-17 可编程交换 P4420.61.54

决策痕迹

决策理由
I(Reasoning 推理通信)并入 B,不独立成章通信角度本质属于服务化推理,独立成章会与 B 的 decode 调度内容重复
不新建 12/13-* 章节给 K/L 之外的方向已 deferred 的方向(A/E/F/H/J/K/M/N)信息密度或紧迫性不足,先做核心 6 方向再回头评估
C 不新建子目录而走平级文件与现有 02-张量并行.md / 03-流水并行.md 编号风格一致;子目录会破坏 docusaurus 排序
优先级按 RICE,但 P0 内部按"是否能复用现有内容 + 资料完备度"二次排序减少首批写作的 effort 风险
31 篇文档为目标,分 P0(11) / P1(10) / P2(10) 三批P0 占 35%,可在 4-6 周内完成;剩余按节奏推进

开放问题

  1. C 方向的 17-ep通信建模 是否值得独立成文?或并入 06-通信性能建模 章作为应用案例?
  2. L 方向的 SDC 静默错误(L-06)业界公开数据少(Google / Meta 内部论文居多),调研深度可能有限,要不要直接砍掉?
  3. B 方向的 13 篇是否过多?要不要把 SGLang/Dynamo 合并为"开源 PD 实现对比"一篇?
  4. 是否需要在 docs/interconnect/README.md 总览页同步更新章节索引(新增 10/11 文件夹)?
  5. 第一批 P0 写作的执行节奏:每周 2-3 篇 ok 吗?是否要每篇独立走 iforge-research 流程?

下一步

用户从 P0 11 篇中挑一篇启动 → 进 iforge-discuss → 路由到 iforge-research(调研类)写第一篇。建议起点:

  • C-14 DeepEP 库 —— 资料最齐、读者最关心、与现有 08-DeepSeek-V4 强咬合
  • D-14 互联标准对比 —— 可先复用现有 01-硬件互联 内容,工作量低、读者面广

生成方式:iforge-brainstorm(extension-ideation 类型 / RICE 收敛) 业界对标轮:webserp 17 个查询、覆盖 2024-2026 关键论文与工业报告