互联通信知识域扩充头脑风暴

背景

docs/interconnect/ 现有 9 个一级章节：01-硬件互联 / 02-网络拓扑 / 03-路由算法 / 04-集合通信 / 05-LLM并行通信 / 06-通信性能建模 / 07-仿真工具 / 08-DeepSeek-V4 / 08-拓扑寻优。整体覆盖了原理 + 拓扑 + 集合通信 + LLM 并行这条主线，缺少 2025-2026 工业热点（PD 分离、DeepEP、UALink/UEC、reasoning 推理、集群可靠性）。本次发散目标：列出值得调研、值得新建文档的方向，并排出写作优先级。

名词定义

推理部署

PD 分离 (Prefill/Decode Disaggregation)：把 LLM 推理的 prefill 阶段（计算 bound）和 decode 阶段（带宽 bound）拆到不同 GPU 集群上独立调度，跨集群传 KV cache。
KV cache transfer: PD 分离架构下 prefill 端把生成的 KV cache 通过 RDMA / NVLink 送到 decode 端。
Cache-aware scheduling：根据请求 prefix 与现有 KV cache 的命中关系决定路由到哪台 decode 节点。
Speculative decoding：用小模型生成 draft token 序列，大模型并行验证，减少 decode 串行长度。
Test-time scaling / reasoning model: o1 / DeepSeek R1 等模型通过延长生成 CoT 长度提升推理能力，对 decode 集群压力大幅增加。

并行通信

EP (Expert Parallel): MoE 模型把不同 expert 放到不同 GPU 上，token 路由通过 all-to-all 通信。
DeepEP: DeepSeek 开源的 EP 通信库，提供 normal 和 low-latency 两种 all-to-all kernel，深度集成 IBGDA。
EPLB (Expert Parallel Load Balancing): DeepSeek 提出的 expert 负载均衡算法，通过 redundant expert（热门 expert 复制）平衡跨节点负载。
IBGDA (InfiniBand GPU Direct Async): GPU 直接发起 RDMA verbs 而无需 CPU 介入，DeepEP 性能关键。

互联标准

UALink (Ultra Accelerator Link): 2025-03 发布 1.0 规范，AMD / Intel / Broadcom 等推动的 NVLink 开放替代标准，定位 scale-up（机柜内）。
UEC (Ultra Ethernet Consortium): 2025 发布 1.0 规范，AMD / Broadcom / Cisco / Meta / Microsoft 等推动，定位 scale-out（机柜间），替代 InfiniBand。
CXL (Compute Express Link)：基于 PCIe 物理层的内存语义互联，CXL 2.0 支持 switch 与池化，CXL 3.0 支持多 host 共享内存与 fabric。

在网计算

SHARP (Scalable Hierarchical Aggregation and Reduction Protocol): NVIDIA Quantum / Spectrum 交换机内置的 reduction offload，把 all-reduce 部分聚合下沉到交换机。
In-network aggregation：把集合通信中的 reduce 操作 offload 到网络设备（交换机 / SmartNIC），减少端到端 hop 数。

可靠性

Straggler：分布式训练中明显慢于其他节点的节点，可由热、链路抖动、SDC 引起，会拖慢 pipeline 与同步集合通信。
SDC (Silent Data Corruption)：没有任何错误信号的位翻转，可能在 NIC / 链路 / 内存中发生，2024-2025 多家 hyperscaler 公开报告。

维度发散

发散出 14 个维度（A-N）后用 RICE 收敛为 6 个核心方向（B/C/D/G/I/L），其中 I（reasoning 推理通信）合并到 B 中作为子方向。其余 8 个维度归入 deferred（见 frontmatter）。

业界对标（webserp 2026-05 实测）

主题	关键来源	用途
UALink 1.0	ualinkconsortium.org 白皮书 / Synopsys UAL/UEC 验证 / codeworm.dev 2026-02 解读	D-10
UEC 1.0	STORDIS UEC 解读 / Synopsys 文章 / OCP NETC-304 (futurememorystorage.com)	D-11
CXL 3.0 内存池	computeexpresslink.org Q3-2025 webinar / introl.com CXL 2025 / eetimes "GPUs to Memory Pools"	D-12, D-13
CXL+LLM 推理	"Amplifying Effective CXL Memory Bandwidth for LLM Inference" (arXiv 2509.03377)	D-13
Mooncake	kvcache-ai/Mooncake GitHub / DeepWiki / UCSD CSE291A reading	B-04
SGLang PD	sgl-project.github.io advanced_features/pd_disaggregation	B-05
NVIDIA Dynamo	developer.nvidia.com "Reduce KV Cache Bottlenecks with NVIDIA Dynamo"	B-06
KV 传输瓶颈	"RTT- or Bandwidth-Bound? Demystifying the KV Cache Transfer ..." (ACM 2025)	B-07
FlowKV	arXiv 2504.03775	B-08
TraCT CXL KV	arXiv 2512.18194	B-10
Mooncake-style Adaptive Rescheduling	arXiv 2510.13668	B-09
DeepEP	github.com/deepseek-ai/DeepEP / deepep.org / DeepWiki	C-14
大规模 EP 部署	"Deploying DeepSeek with PD Disaggregation and Large-Scale EP on 96 H100" (LMSYS 2025-05-05)	C-16
Azure DeepEP 调优	techcommunity.microsoft.com Azure HPC blog	C-16
长上下文推理 CP	"Context Parallelism for Scalable Million-Token Inference" (arXiv 2411.01783)	B-11
Reasoning inference scaling	introl.com 2025-12 Inference-Time Scaling / DeepSeek R1 部署文章	B-12
分布式投机解码	"Fast Collaborative Inference via Distributed Speculative Decoding" (arXiv 2512.16273)	B-13
SHARP	developer.nvidia.com SHARP blog	G-15
NetReduce	"NetReduce" (ASPLOS 2023, sands.kaust.edu.sa)	G-16
Flare	arXiv 2106.15565	G-16
Reliability	"Revisiting Reliability in Large-Scale Machine Learning" (arXiv 2410.21680)	L-01
Straggler-Resilient Pipeline	NSDI 26 "Attack of the Bubbles"	L-02
xAI Colossus 互联	nvidianews.nvidia.com Spectrum-X / Supermicro / naddod 100K GPU 解读	F (deferred)

候选清单（按方向）

B + I — 推理服务化通信（13 篇，新建 09-推理服务化通信/）

#	文件	单一问题	主要来源
01	01-总览.md	Prefill vs Decode 特征差异、为什么要服务化、PD 分离生态全景	DistServe / Mooncake / SGLang docs
02	02-pd分离原理.md	PD 分离的调度模型、SLO 拆分（TTFT vs TPOT）	DistServe OSDI 24 论文
03	03-distserve.md	DistServe 系统设计与实测	DistServe OSDI 24
04	04-mooncake.md	Mooncake KV-centric 架构（Conductor / Messenger）	Mooncake GitHub / DeepWiki
05	05-sglang-pd.md	SGLang PD 实现细节与部署形态	sgl-project docs
06	06-nvidia-dynamo.md	NVIDIA Dynamo 架构与 KV router	NVIDIA Dynamo blog
07	07-kv传输瓶颈.md	KV 传输 RTT-bound vs BW-bound 解析	SIGCOMM/ACM 2025 论文
08	08-flowkv.md	FlowKV 跨节点 KV 传输优化	arXiv 2504.03775
09	09-cache-aware调度.md	Prefix cache hit / cache-aware 调度	Together CPD / arXiv 2510.13668
10	10-cxl-rack-kv.md	TraCT 用 CXL 做 rack-scale KV 共享	arXiv 2512.18194
11	11-长上下文推理通信.md	1M token context parallel for inference	arXiv 2411.01783
12	12-reasoning推理通信.md	长 CoT 对 decode 集群压力、动态长度调度	DeepSeek R1 部署 / Inference-Time Scaling 综述
13	13-投机解码通信.md	Speculative decoding 的 draft-target 通信	arXiv 2512.16273

C — MoE 专家并行通信深挖（4 篇，扩 05-LLM并行通信/）

#	文件	单一问题	主要来源
14	14-deepep库.md	DeepEP kernel 与 IBGDA 设计	DeepEP GitHub / DeepWiki
15	15-eplb负载均衡.md	EPLB 算法与 redundant expert 策略	DeepSeek EPLB 报告
16	16-大规模ep实测.md	LMSYS 96 H100 EP 部署实测	LMSYS blog 2025-05-05
17	17-ep通信建模.md	EP all-to-all 在带宽/时延的解析建模	综合 DeepEP / alpha-beta

现有 05-专家并行.md 保留为入门篇，新增 4 篇平级置于其后。

D — 新型互联标准（5 篇，扩 01-硬件互联/）

#	文件	单一问题	主要来源
10	10-ualink.md	UALink 1.0 spec 与 accelerator fabric	UALink Consortium 白皮书
11	11-ultra-ethernet.md	UEC 1.0 / 替代 IB 的开放协议栈	STORDIS / Synopsys
12	12-cxl.md	CXL 2.0/3.0 内存语义互联基础	CXL Consortium webinar
13	13-cxl-ai应用.md	CXL 在 LLM 推理的带宽放大实测	arXiv 2509.03377
14	14-互联标准对比.md	NVLink/UALink/IB/UEC/CXL 分层对比	综合

G — In-Network Computing（3 篇，扩 04-集合通信/）

#	文件	单一问题	主要来源
15	15-sharp.md	NVIDIA SHARP v1/v2/v3 与 NCCL 集成	NVIDIA developer blog
16	16-学术在网聚合.md	NetReduce / Flare / ATP 横向对比	ASPLOS 23 / arXiv 2106.15565
17	17-可编程交换p4.md	P4 在 AI 网络的 offload 与商业化	SwitchML / Tofino 后续

L — 集群可靠性与 Straggler（6 篇，新建 10-集群可靠性/）

#	文件	单一问题	主要来源
01	01-总览.md	100K GPU 集群故障图谱与 MTBF	arXiv 2410.21680 / Meta cluster lessons
02	02-straggler.md	慢节点检测算法与缓解策略	NSDI 26 Attack of the Bubbles
03	03-async-checkpoint.md	异步 checkpoint 设计	Megatron / DeepSpeed checkpoint
04	04-分布式checkpoint通信.md	分布式 checkpoint 通信代价	NVIDIA / PyTorch 文档
05	05-弹性训练.md	torchelastic / Megatron-Resilience	PyTorch elastic docs
06	06-sdc静默错误.md	NIC / 链路 / 内存 SDC 检测	Google / Meta SDC 报告

收敛矩阵（RICE）

R = Reach（关心读者面），I = Impact（信息密度/独家性），C = Confidence（资料齐备度），E = Effort（撰写工作量，单位人日）。

P0（11 篇，第一批立刻写）

候选	R	I	C	E	RICE	备注
C-14 DeepEP 库	10	3	0.8	1.0	24	工业事实标准，源码 + 文档齐
D-10 UALink	10	2	0.8	0.8	20	2025-03 新规范，业界焦点
D-14 互联标准对比	10	2	0.8	0.8	20	高读者面、能复用现有 01 章内容
B-02 PD 分离原理	9	2	0.8	0.8	18	2025 最强热点的入门篇
B-04 Mooncake	9	2	0.8	0.8	18	字节工业案例 + 开源
C-15 EPLB 负载均衡	8	2	0.8	0.8	16	与 14 配套，DeepSeek 独家
D-11 UEC	8	2	0.8	0.8	16	与 D-10 并列焦点
B-03 DistServe	8	2	0.8	1.0	12	OSDI 学术原型
C-16 大规模 EP 实测	8	2	0.8	1.0	12	LMSYS 96 H100 实测数据
B-07 KV 传输瓶颈	8	2	0.8	1.0	12	SIGCOMM 25 / 工业实测
B-01 推理服务化总览	8	2	0.8	1.0	6→入口	入口文档，给 10-* 系列定基调

P1（10 篇，第二批）

候选	R	I	C	E	RICE	备注
B-06 NVIDIA Dynamo	8	2	0.8	1.0	12	工业新方案
L-02 Straggler	8	2	0.8	1.0	12	NSDI 26 论文 + 工业痛点
G-15 SHARP	8	2	0.8	1.0	12	NVIDIA 已部署
B-12 Reasoning 推理通信	7	2	0.6	1.0	9	新角度，资料偏散
L-01 可靠性总览	7	2	0.8	1.5	9	综合性入口
B-09 Cache-aware 调度	7	2	0.8	1.5	8	Together / arXiv
B-05 SGLang PD	7	2	0.8	1.5	8	开源实现解读
C-17 EP 通信建模	6	2	0.6	1.0	8	把 04 / 06 章模型套到 EP
D-12 CXL 基础	7	2	0.8	1.5	8	比 D-13 更基础

P2（10 篇，第三批 / 后续完善）

候选	R	I	C	E	RICE
L-05 弹性训练	6	2	0.8	1.5	6
B-11 长上下文推理 CP	6	2	0.8	1.5	6
D-13 CXL 在 AI 应用	6	2	0.8	1.5	6
G-16 学术在网聚合	6	2	0.6	1.5	6
B-08 FlowKV	5	2	0.8	1.5	6
B-13 投机解码通信	5	2	0.6	1.5	5
B-10 CXL rack KV	5	2	0.6	1.5	5
L-04 分布式 checkpoint 通信	5	2	0.6	1.5	5
L-06 SDC 静默错误	5	2	0.6	1.5	5
L-03 Async checkpoint	5	2	0.8	2.0	4
G-17 可编程交换 P4	4	2	0.6	1.5	4

决策痕迹

决策	理由
I（Reasoning 推理通信）并入 B，不独立成章	通信角度本质属于服务化推理，独立成章会与 B 的 decode 调度内容重复
不新建 12/13-* 章节给 K/L 之外的方向	已 deferred 的方向（A/E/F/H/J/K/M/N）信息密度或紧迫性不足，先做核心 6 方向再回头评估
C 不新建子目录而走平级文件	与现有 `02-张量并行.md / 03-流水并行.md` 编号风格一致；子目录会破坏 docusaurus 排序
优先级按 RICE，但 P0 内部按"是否能复用现有内容 + 资料完备度"二次排序	减少首批写作的 effort 风险
31 篇文档为目标，分 P0(11) / P1(10) / P2(10) 三批	P0 占 35%，可在 4-6 周内完成；剩余按节奏推进

开放问题

C 方向的 17-ep通信建模 是否值得独立成文？或并入 06-通信性能建模章作为应用案例？
L 方向的 SDC 静默错误（L-06）业界公开数据少（Google / Meta 内部论文居多），调研深度可能有限，要不要直接砍掉？
B 方向的 13 篇是否过多？要不要把 SGLang/Dynamo 合并为"开源 PD 实现对比"一篇？
是否需要在 docs/interconnect/README.md 总览页同步更新章节索引（新增 10/11 文件夹）？
第一批 P0 写作的执行节奏：每周 2-3 篇 ok 吗？是否要每篇独立走 iforge-research 流程？

下一步

用户从 P0 11 篇中挑一篇启动 → 进 iforge-discuss → 路由到 iforge-research（调研类）写第一篇。建议起点：

C-14 DeepEP 库 —— 资料最齐、读者最关心、与现有 08-DeepSeek-V4 强咬合
或 D-14 互联标准对比 —— 可先复用现有 01-硬件互联内容，工作量低、读者面广

生成方式：iforge-brainstorm（extension-ideation 类型 / RICE 收敛） 业界对标轮：webserp 17 个查询、覆盖 2024-2026 关键论文与工业报告

背景​

名词定义​

推理部署​

并行通信​

互联标准​

在网计算​

可靠性​

维度发散​

业界对标（webserp 2026-05 实测）​

候选清单（按方向）​

B + I — 推理服务化通信（13 篇，新建 09-推理服务化通信/）​

C — MoE 专家并行通信深挖（4 篇，扩 05-LLM并行通信/）​

D — 新型互联标准（5 篇，扩 01-硬件互联/）​

G — In-Network Computing（3 篇，扩 04-集合通信/）​

L — 集群可靠性与 Straggler（6 篇，新建 10-集群可靠性/）​

收敛矩阵（RICE）​

P0（11 篇，第一批立刻写）​

P1（10 篇，第二批）​

P2（10 篇，第三批 / 后续完善）​

决策痕迹​

开放问题​

下一步​

背景