Chiplet D2D 标准

UCIe/BoW/AIB/CCITA/ACC 五家协议栈并串路线如何决定并行策略上限

核心要点：

UCIe 是事实国际 D2D 标准：三层协议栈 + 三种封装变体，120+ 成员

BoW 是 PHY-only 极简方案：无协议栈，主流 AI 加速器未采用

AIB 是 Intel EMIB 遗产标准：开源后被 UCIe 取代

国产分两路：CCITA 并串双模升级国标 GB/T 46280，ACC 纯串行低成本路线

D2D 类型锁定并行策略上限：并行 D2D 可支撑跨 die TP，纯串行只能支撑 EP

前置阅读：

章节范围、共享名词（Chiplet / D2D / 海岸线密度等） → 01-总览
芯片间互联协议（NVLink / UALink / 灵衢） → interconnect/01-硬件互联

UCIe 为什么成为事实国际标准？

UCIe 的胜出来自三层协议栈完备 + 三种封装变体覆盖 + 大联盟驱动。Intel、AMD、Arm、TSMC、Samsung、Microsoft、Meta、Google Cloud、Qualcomm、ASE 于 2022-03 联合发起，现已吸纳 120+ 成员（含 2022-08 加入的 NVIDIA 与阿里巴巴）[1]。

三层协议栈

PHY（物理层）：电信号、时钟、bump map 定义；区分三种封装变体 S / A / 3D
Die-to-Die Adapter（适配层）：链路状态管理、参数协商、CRC 重试、健康监控（v1.1+）、在线修复
Protocol Layer（协议层）：原生映射 PCIe 和 CXL（256B FLIT 支持 CXL.io/.mem/.cache）；v1.1 起支持并发多协议；Streaming 桥接支持 AMBA AXI/CXS/CHI 等自定义协议

三种封装变体的密度差异

变体	封装类型	Bump 间距	典型传输距离	海岸线密度（v3.0, 64 GT/s）
UCIe-S（Standard）	有机基板 / laminate	100-130 μm	~25 mm	~448 GB/s/mm
UCIe-A（Advanced）	Si interposer / EMIB / RDL fanout	25-55 μm	~2 mm	~2634 GB/s/mm
UCIe-3D（Hybrid Bonding）	3D 垂直堆叠	<10 μm	垂直方向	最高（未定标）

@tbl-d2d-ucie-phy UCIe 三种封装变体的密度对比（v3.0 64 GT/s）

关键参数：单 lane 速率 v1.0 最高 32 GT/s，v3.0 新增 48 / 64 GT/s（吞吐翻倍）；协议栈 + PHY 往返延迟 ~4 ns；功耗效率 ~0.5 pJ/bit（约为 PCIe Gen5 SerDes 的 1/10）。

版本演进

版本	发布时间	关键变化
1.0	2022-03	初始规范：PHY、协议栈、软件架构、合规框架
1.1	2023-08	运行时健康监控/修复、降成本 bump map、并发多协议、车规级可靠性
2.0	2024-08	全面可管理性/调试/测试、3D 封装优化、完全向后兼容
3.0	2025-08	48/64 GT/s 速率、运行时重校准、快速节流/紧急关断、优先级 sideband 消息

@tbl-d2d-ucie-versions UCIe 版本演进

产业采纳已从 Intel Ponte Vecchio、AMD MI300、Samsung 芯片等早期产品扩展到多家 IP 供应商（Synopsys / Alphawave Semi / Cadence）的多工艺节点 PHY/Controller IP 生态。

为什么 BoW 在 AI 芯片上几乎没采用？

BoW 是 PHY-only 极简方案，与 AI 加速器需求的复杂协议组合不匹配。BoW 由 OCP/ODSA（Open Domain-Specific Architecture）工作组维护，设计理念是"去掉一切不需要的复杂度"——只定义 PHY 层，不绑定协议栈[2]。

规格要点

架构：并行 DDR 源同步接口；每个 slice 含 16 条数据线 + 互补时钟 + 可选 FEC/AUX
速率：单线 2-32 Gbps，6 种工作模式；slice 总带宽 32-512 Gbps
海岸线密度：标准 bump 320-1024 Gbps/mm（~40-128 GB/s/mm），Advanced 可达 1+ Tbps/mm
功耗：0.25-0.5 pJ/bit（非端接）/ 0.5-1 pJ/bit（双端接）——五者中最低
延迟：链路 <2-4 ns；仅支持片上短距互联

BoW vs UCIe 的对比

维度	BoW	UCIe
范围	PHY-only	全栈（PHY + Adapter + Protocol）
协议支持	无原生 PCIe/CXL	PCIe/CXL + Streaming
复杂度	极低	高
功耗	0.25-1 pJ/bit	~0.5 pJ/bit
生态	OCP/ODSA 小众	120+ 成员事实标准

@tbl-d2d-bow-vs-ucie BoW 与 UCIe 的分层对比

BoW 适用于成本敏感、功能简单的 Chiplet 设计——不需多协议兼容、只需带宽、希望 IP 实现复杂度最低。但 AI 加速器需要处理 PCIe/CXL 主机接口 + HBM 访存 + chip-to-chip 直连的复杂协议组合，BoW 在这里恰好缺位。BoW spec 截至 2023-01 仍为 Draft 1.9d，无公开量产商用产品以 BoW 作为主 D2D 接口。

AIB 为何被 UCIe 取代？

AIB 是 PHY-only 标准，缺少协议栈与生态扩展能力，被 UCIe 全栈方案取代。AIB 源于 Intel 为 EMIB 封装设计的 PHY 接口，在 Stratix 10 FPGA（连接 FPGA die 与 HBM）和 Ponte Vecchio GPU（UCIe 前时代）使用[3]。

规格要点

协议形式：PHY-only，上层协议（PCIe/AXI/Streaming）由用户自实现
架构：并行源同步时钟、可调电压/频率、credit-based 流控、独立 TX/RX 时钟域
延迟：~5 ns（PHY 往返）
功耗：未公开精确值，估计 ~1-2 pJ/bit

版本	数据率	海岸线密度	Bump 间距
AIB 1.0	~2 GT/s/pin	~504 Gbps/mm（~63 GB/s/mm）	~55 μm
AIB 2.0（draft）	更高（未公开）	>6× AIB 1.0，估计 >3000 Gbps/mm	约 1.0 的一半

@tbl-d2d-aib-versions AIB 版本与规格

开源与衰退

Intel 于 2020 年将 AIB 贡献给 CHIPS Alliance（Linux Foundation），royalty-free 开源，GitHub chipsalliance/aib-phy-hardware 含 1.0/2.0 RTL 和 cell model。但 UCIe 崛起后，AIB 商业牵引力持续下降——Intel 自身新产品已转向 UCIe。AIB 的工程遗产在 UCIe-A（Advanced Package PHY）中得以延续。

国产 D2D 走了哪两条路径？

国内出现 CCITA 并串双模与 ACC 纯串行低成本两条独立路径，分别对应两个独立联盟。

路径一：CCITA — 从团标到国标

CCITA（中国计算机互连技术联盟）由中科院计算所 + 工信部电子四院牵头，联合 60+ 国产供应链单位，发起人为郝沁汾[4]。

标准历程：

2020-12：首届全国互联技术产业大会
2022-12：发布 T/CESA 1248-2023《小芯片接口总线技术要求》
2023-01：T/CESA 1248 正式实施
2025-08-19：升级为国标 GB/T 46280 系列，正式发布[5]
2026-03-01：国标正式实施

维度	CCITA（T/CESA 1248）	UCIe
接口类型	并行 + 串行双模	仅并行（Advanced），串行留给 CPO
协议层	自研 flit 包格式，声称兼容 UCIe 生态	CXL/PCIe Streaming + 6 种标准 flit
封装目标	国产基板（有机/2D/2.5D）	Intel/AMD/TSMC 先进封装（CoWoS/Foveros/InFO）
设计理念	成本导向 + 供应链自主可控	性能导向 + 全球供应链
并行带宽	学术综述报道 6.4 TB/s aggregate[6]	单 Module ~512 GB/s（Advanced x64 双向，v1.0 32 GT/s）

@tbl-d2d-ccita-vs-ucie CCITA 与 UCIe 的定位对比

生态进展：合见工软（Univista）和奎芯科技（Quxinchip）已发布兼容 D2D PHY/Controller IP（2024-2025）。联盟官方表述"已有几家 IP 厂商支持"，联合验证进行中，预计 3-5 年大规模集成。

路径二：ACC 1.0 — 纯串行低成本

ACC 1.0（Advanced Cost-driven Chiplet Interface）来自中国 Chiplet 产业联盟（独立于 CCITA），由清华姚期智团队主导[7]。

指标	数值
接口类型	高速串行 only（8 通道）
单通道速率	32-128 Gbps
端到端延迟	<50 ns
误码率（BER）	<10^-15
硅面积	2.13 mm²（14/12nm 工艺）
协议层	CXL 3.0 / AXI 4.0 / 自定义 Stream
封装支持	2D + 2.5D，适配国产基板

@tbl-d2d-acc-spec ACC 1.0 规格

双标准定位对比

维度	CCITA（T/CESA 1248）	ACC 1.0
接口类型	并行 + 串行	仅串行
速率量级	并行最高 6.4 TB/s aggregate（学术综述）	32-128 Gbps/通道
延迟	未公开	<50 ns
协议	自研 flit + UCIe 兼容	CXL 3.0 / AXI 4.0 / Stream
牵头方	中科院计算所	清华姚期智
国标升级	GB/T 46280	暂无

@tbl-d2d-ccita-vs-acc 国产双标准对比

两路差异化清晰：CCITA 对标 UCIe 覆盖全场景（并行 + 串行），ACC 走纯串行路线填补国产基板生态下的大规模 Chiplet 需求。两者不是替代关系，而是覆盖不同封装成本档位。

五标准定量怎么放在一张表？

在统一维度下扫五个标准，并行 D2D 海岸线密度差 1-2 个数量级，串行 D2D 退到通道速率维度。

指标	UCIe v3.0（64 GT/s）	BoW Draft 1.9	AIB 2.0	CCITA（T/CESA 1248）	ACC 1.0
最高海岸线密度	~2634 GB/s/mm（Adv）/ ~448（Std）	~128 GB/s/mm	~375 GB/s/mm（估计）	未公开 per-mm；6.4 TB/s aggregate（学术）	串行架构，密度远低于并行
延迟（往返）	~4 ns	<2-4 ns	~5 ns	未公开	<50 ns
功耗效率	~0.5 pJ/bit	0.25-1 pJ/bit	~1-2 pJ/bit（估计）	未公开	未公开
单 lane 速率	4-64 GT/s	2-32 Gbps	~2 GT/s（1.0）	未公开	32-128 Gbps/通道
最大传输距离	~25 mm（S）/ ~2 mm（A）	片上短距	~2 mm（EMIB）	未公开	未公开
Bump 间距	100-130 μm（S）/ 25-55 μm（A）/ <10 μm（3D）	标准 bump	~55 μm（1.0）	适配国产基板	适配国产基板
封装类型	有机 / Si interposer / EMIB / RDL / Hybrid	有机 / Si interposer	EMIB / Si interposer	国产有机 / 2D / 2.5D	2D / 2.5D
协议支持	PCIe + CXL + Streaming	无（PHY-only）	无（PHY-only）	自研 flit + UCIe 兼容	CXL 3.0 / AXI 4.0 / Stream
串行支持	无（留给 CPO）	无	无	有（并串双模）	仅串行
3D 堆叠	有（UCIe-3D）	无	无	未覆盖	无
生态成熟度	事实标准，120+ 成员，IP 量产	OCP 小众	开源但衰退	团标→国标，3-5 年生态培育	联盟标准，生态较新
治理	UCIe Consortium	OCP/ODSA	CHIPS Alliance	CCITA / HiPi Forum	中国 Chiplet 产业联盟

@tbl-d2d-five-comparison 五标准定量对比

两条选型直觉：

高带宽 + AI 加速器（跨 die TP）：UCIe 或 CCITA 并行模式
低成本 + 中等带宽（IoT、车规、国产基板）：ACC 串行或 BoW

AIB 已基本退出竞争。

D2D 带宽如何约束 LLM 并行策略？

D2D 类型锁定上层并行策略的天花板。这一节用三个推论说明 D2D 选择如何传导到部署方案。

跨 die TP：稳态带宽够、延迟够，关键是带宽密度

Transformer 跨 die 做 TP，每层需 2 次 all-reduce（attention 后 + FFN 后）。以 70B 模型（$h=8192$，bf16，TP=2，$L=80$ 层）为例：每 token 每 all-reduce 通信量 = $2 \times 8192 \times 2 / 2 = 16$ KB，每层 ×2 = 32 KB/token/layer，全模型 = 32 KB × 80 = 2.56 MB/token。1000 tok/s（说明性假设）下稳态 D2D 需求 ~2.5 GB/s。

但稳态带宽不是真正的约束。TP 的瓶颈是延迟：all-reduce 需 $N-1$ 次环迭代，消息小时延迟占比主导。并行 D2D（UCIe）~4 ns，纯串行 D2D（ACC）<50 ns，TP=2 场景下 2 × latency 开销对串行可接受。

更尖锐的约束来自带宽下界：

$$\begin{equation} D2D_{bw} \gtrsim HBM_{bw} \;/\; t \label{eq:d2d-tp-threshold} \end{equation}$$

其中 $t$ 为 TP 度。对 TP=2 双 die 70B 模型，HBM_bw ~3 TB/s/die，所需 D2D 带宽 $\gtrsim$ ~1.5 TB/s 才能避免成为新瓶颈。UCIe 并行可达，ACC 串行（~128 GB/s）差一个数量级——使用纯串行 D2D 的多 die 加速器无法做跨 die TP，TP 必须限定在单 die 内。

跨 die EP：带宽门槛低

MoE 模型的 EP all-to-all 通信量远低于 TP：每 token 每 destination die 仅数百字节（DeepSeek-V3 EP=8 场景 ~448 bytes/token/die）。1000 tok/s 下 per-die D2D 需求约 14 MB/s——任何 D2D（包括 ACC 串行 128 GB/s）都绰绰有余。

EP 的瓶颈是动态路由的负载不均，是调度问题不是互联问题。

FSE-DP：权重流式传输改变游戏规则

Expert Streaming（FSE-DP）提出 MoE 推理的颠覆范式：每份 expert weight slice 只存一个物理副本，tokens 到哪个 die 就按需把对应 expert 权重跨 die 流式传输过来[8]。这把 D2D 从"激活搬运通道"转变为"权重交付管道"。

关键实测：当 on-chip buffer < 14 MB 时，D2D 吞吐需达 ~512 GB/s（约 3 个 UCIe Module，每 Module ~170 GB/s 为论文特定配置下的有效带宽）才能维持 >60% 计算利用率。纯串行 D2D（128 GB/s）严重不足，FSE-DP 从"架构优势"退化为性能瓶颈。

三类设计落点

D2D 类型	可行的并行策略	不可行
并行 D2D（UCIe / CCITA 并行）	跨 die TP + EP + FSE-DP	—
纯串行 D2D（ACC）	EP 跨 die，TP 限单 die	跨 die TP、FSE-DP
混合（推荐串行 D2D 加速器）	TP intra-die、EP/DP inter-die	—

@tbl-d2d-parallelism-implications D2D 类型对应的并行策略

Takeaway

知识点	核心结论
UCIe	三层协议栈 + 三种封装变体 + 120+ 成员，已成事实国际标准
BoW	PHY-only 极简方案，与 AI 加速器复杂协议需求不匹配，主流未采用
AIB	Intel EMIB 遗产，开源后被 UCIe 取代；工程经验延续到 UCIe-A
国产 CCITA	并串双模，2025-08 升级国标 GB/T 46280，对标 UCIe 全场景覆盖
国产 ACC	纯串行低成本，填补国产基板生态下的中等带宽 Chiplet 需求
D2D ↔ 并行策略	并行 D2D 解锁跨 die TP + FSE-DP；纯串行 D2D 只能 EP 跨 die、TP 限单 die

@tbl-d2d-takeaway 本文 Takeaway

局限与开放问题

本调研的局限：

CCITA / ACC 的海岸线密度、功耗效率、精确 per-lane 速率未公开披露——6.4 TB/s 来自学术综述非官方 spec
UCIe v3.0 48/64 GT/s 实测性能（vs 标称）尚无独立第三方测试报告
FSE-DP 的 D2D 带宽分析基于 2026-03 arxiv 预印本，未经同行评议
截至 2026-05 公开资料，UCIe 4.0 与 GB/T 46280 后续 part 未发布

开放问题：

CCITA 并行模式的 per-mm 海岸线密度与 per-lane 数据率
UCIe v3.0 48/64 GT/s 模式下实测功耗（pJ/bit）与标称偏差
ACC 1.0 与 CCITA 并行模式的标准化延迟基准测试
FSE-DP 在 TP+EP 混合策略下的 D2D 带宽需求
GB/T 46280 系列 Part 2/3/4 的完整国标文本
CCITA 声称的 "UCIe 生态兼容" 具体实现方式（同 flit 还是 adapter 转换）

参考资料

UCIe Consortium, UCIe Specifications v1.0–v3.0, 2022–2025. https://www.uciexpress.org/specifications
OCP/ODSA, Bunch of Wires PHY Specification Draft 1.9d, 2023. https://opencomputeproject.github.io/ODSA-BoW/bow_specification.html
CHIPS Alliance, AIB 2.0 Draft Specification, 2020. https://www.chipsalliance.org/news/aib-2-0-draft-specification/
腾讯云开发者社区，国产 Chiplet 标准深度解读，2022. https://cloud.tencent.com/developer/article/2261978
SAMR（国家标准委），GB/T 46280.1-2025 芯粒互联接口规范 Part 1：总则，2025-08-19 发布 / 2026-03-01 实施。https://www.chinesestandard.net/PDF/English.aspx/GBT46280.1-2025
《计算机研究与发展》，芯粒互联技术综述，2024. https://crad.ict.ac.cn/article/doi/10.7544/issn1000-1239.202440585
21ic, ACC 1.0 标准发布，2023-03. https://www.21ic.com/a/953425.html
Anonymous, Expert Streaming (FSE-DP), arxiv 2603.27624, 2026-03. https://arxiv.org/abs/2603.27624

UCIe 为什么成为事实国际标准？​

三层协议栈​

三种封装变体的密度差异​

版本演进​

为什么 BoW 在 AI 芯片上几乎没采用？​

规格要点​

BoW vs UCIe 的对比​

AIB 为何被 UCIe 取代？​

规格要点​

开源与衰退​

国产 D2D 走了哪两条路径？​

路径一：CCITA — 从团标到国标​

路径二：ACC 1.0 — 纯串行低成本​

双标准定位对比​

五标准定量怎么放在一张表？​

D2D 带宽如何约束 LLM 并行策略？​

跨 die TP：稳态带宽够、延迟够，关键是带宽密度​

跨 die EP：带宽门槛低​

FSE-DP：权重流式传输改变游戏规则​

三类设计落点​

Takeaway​

局限与开放问题​

参考资料​

延伸阅读​

UCIe 为什么成为事实国际标准？

三层协议栈

三种封装变体的密度差异

版本演进

为什么 BoW 在 AI 芯片上几乎没采用？

规格要点

BoW vs UCIe 的对比

AIB 为何被 UCIe 取代？

规格要点

开源与衰退

国产 D2D 走了哪两条路径？

路径一：CCITA — 从团标到国标

路径二：ACC 1.0 — 纯串行低成本

双标准定位对比

五标准定量怎么放在一张表？

D2D 带宽如何约束 LLM 并行策略？

跨 die TP：稳态带宽够、延迟够，关键是带宽密度

跨 die EP：带宽门槛低

FSE-DP：权重流式传输改变游戏规则

三类设计落点

Takeaway

局限与开放问题

参考资料

延伸阅读