Chiplet D2D 标准
UCIe/BoW/AIB/CCITA/ACC 五家协议栈并串路线如何决定并行策略上限
核心要点:
- UCIe 是事实国际 D2D 标准:三层协议栈 + 三种封装变体,120+ 成员
- BoW 是 PHY-only 极简方案:无协议栈,主流 AI 加速器未采用
- AIB 是 Intel EMIB 遗产标准:开源后被 UCIe 取代
- 国产分两路:CCITA 并串双模升级国标 GB/T 46280,ACC 纯串行低成本路线
- D2D 类型锁定并行策略上限:并行 D2D 可支撑跨 die TP,纯串行只能支撑 EP
前置阅读:
- 章节范围、共享名词(Chiplet / D2D / 海岸线密度等) → 01-总览
- 芯片间互联协议(NVLink / UALink / 灵衢) → interconnect/01-硬件互联
UCIe 为什么成为事实国际标准?
UCIe 的胜出来自三层协议栈完备 + 三种封装变体覆盖 + 大联盟驱动。Intel、AMD、Arm、TSMC、Samsung、Microsoft、Meta、Google Cloud、Qualcomm、ASE 于 2022-03 联合发起,现已吸纳 120+ 成员(含 2022-08 加入的 NVIDIA 与阿里巴巴)[1]。
三层协议栈
- PHY(物理层):电信号、时钟、bump map 定义;区分三种封装变体 S / A / 3D
- Die-to-Die Adapter(适配层):链路状态管理、参数协商、CRC 重试、健康监控(v1.1+)、在线修复
- Protocol Layer(协议层):原生映射 PCIe 和 CXL(256B FLIT 支持 CXL.io/.mem/.cache);v1.1 起支持并发多协议;Streaming 桥接支持 AMBA AXI/CXS/CHI 等自定义协议
三种封装变体的密度差异
| 变体 | 封装类型 | Bump 间距 | 典型传输距离 | 海岸线密度(v3.0, 64 GT/s) |
|---|---|---|---|---|
| UCIe-S(Standard) | 有机基板 / laminate | 100-130 μm | ~25 mm | ~448 GB/s/mm |
| UCIe-A(Advanced) | Si interposer / EMIB / RDL fanout | 25-55 μm | ~2 mm | ~2634 GB/s/mm |
| UCIe-3D(Hybrid Bonding) | 3D 垂直堆叠 | <10 μm | 垂直方向 | 最高(未定标) |
@tbl-d2d-ucie-phy UCIe 三种封装变体的密度对比(v3.0 64 GT/s)
关键参数:单 lane 速率 v1.0 最高 32 GT/s,v3.0 新增 48 / 64 GT/s(吞吐翻倍);协议栈 + PHY 往返延迟 ~4 ns;功耗效率 ~0.5 pJ/bit(约为 PCIe Gen5 SerDes 的 1/10)。
版本演进
| 版本 | 发布时间 | 关键变化 |
|---|---|---|
| 1.0 | 2022-03 | 初始规范:PHY、协议栈、软件架构、合规框架 |
| 1.1 | 2023-08 | 运行时健康监控/修复、降成本 bump map、并发多协议、车规级可靠性 |
| 2.0 | 2024-08 | 全面可管理性/调试/测试、3D 封装优化、完全向后兼容 |
| 3.0 | 2025-08 | 48/64 GT/s 速率、运行时重校准、快速节流/紧急关断、优先级 sideband 消息 |
@tbl-d2d-ucie-versions UCIe 版本演进
产业采纳已从 Intel Ponte Vecchio、AMD MI300、Samsung 芯片等早期产品扩展到多家 IP 供应商(Synopsys / Alphawave Semi / Cadence)的多工艺节点 PHY/Controller IP 生态。
为什么 BoW 在 AI 芯片上几乎没采用?
BoW 是 PHY-only 极简方案,与 AI 加速器需求的复杂协议组合不匹配。BoW 由 OCP/ODSA(Open Domain-Specific Architecture)工作组维护,设计理念是"去掉一切不需要的复杂度"——只定义 PHY 层,不绑定协议栈[2]。
规格要点
- 架构:并行 DDR 源同步接口;每个 slice 含 16 条数据线 + 互补时钟 + 可选 FEC/AUX
- 速率:单线 2-32 Gbps,6 种工作模式;slice 总带宽 32-512 Gbps
- 海岸线密度:标准 bump 320-1024 Gbps/mm(~40-128 GB/s/mm),Advanced 可达 1+ Tbps/mm
- 功耗:0.25-0.5 pJ/bit(非端接)/ 0.5-1 pJ/bit(双端接)——五者中最低
- 延迟:链路 <2-4 ns;仅支持片上短距互联
BoW vs UCIe 的对比
| 维度 | BoW | UCIe |
|---|---|---|
| 范围 | PHY-only | 全栈(PHY + Adapter + Protocol) |
| 协议支持 | 无原生 PCIe/CXL | PCIe/CXL + Streaming |
| 复杂度 | 极低 | 高 |
| 功耗 | 0.25-1 pJ/bit | ~0.5 pJ/bit |
| 生态 | OCP/ODSA 小众 | 120+ 成员事实标准 |
@tbl-d2d-bow-vs-ucie BoW 与 UCIe 的分层对比
BoW 适用于成本敏感、功能简单的 Chiplet 设计——不需多协议兼容、只需带宽、希望 IP 实现复杂度最低。但 AI 加速器需要处理 PCIe/CXL 主机接口 + HBM 访存 + chip-to-chip 直连的复杂协议组合,BoW 在这里恰好缺位。BoW spec 截至 2023-01 仍为 Draft 1.9d,无公开量产商用产品以 BoW 作为主 D2D 接口。
AIB 为何被 UCIe 取代?
AIB 是 PHY-only 标准,缺少协议栈与生态扩展能力,被 UCIe 全栈方案取代。AIB 源于 Intel 为 EMIB 封装设计的 PHY 接口,在 Stratix 10 FPGA(连接 FPGA die 与 HBM)和 Ponte Vecchio GPU(UCIe 前时代)使用[3]。
规格要点
- 协议形式:PHY-only,上层协议(PCIe/AXI/Streaming)由用户自实现
- 架构:并行源同步时钟、可调电压/频率、credit-based 流控、独立 TX/RX 时钟域
- 延迟:~5 ns(PHY 往返)
- 功耗:未公开精确值,估计 ~1-2 pJ/bit
| 版本 | 数据率 | 海岸线密度 | Bump 间距 |
|---|---|---|---|
| AIB 1.0 | ~2 GT/s/pin | ~504 Gbps/mm(~63 GB/s/mm) | ~55 μm |
| AIB 2.0(draft) | 更高(未公开) | >6× AIB 1.0,估计 >3000 Gbps/mm | 约 1.0 的一半 |
@tbl-d2d-aib-versions AIB 版本与规格
开源与衰退
Intel 于 2020 年将 AIB 贡献给 CHIPS Alliance(Linux Foundation),royalty-free 开源,GitHub chipsalliance/aib-phy-hardware 含 1.0/2.0 RTL 和 cell model。但 UCIe 崛起后,AIB 商业牵引力持续下降——Intel 自身新产品已转向 UCIe。AIB 的工程遗产在 UCIe-A(Advanced Package PHY)中得以延续。
国产 D2D 走了哪两条路径?
国内出现 CCITA 并串双模与 ACC 纯串行低成本两条独立路径,分别对应两个独立联盟。
路径一:CCITA — 从团标到国标
CCITA(中国计算机互连技术联盟)由中科院计算所 + 工信部电子四院牵头,联合 60+ 国产供应链单位,发起人为郝沁汾[4]。
标准历程:
- 2020-12:首届全国互联技术产业大会
- 2022-12:发布 T/CESA 1248-2023《小芯片接口总线技术要求》
- 2023-01:T/CESA 1248 正式实施
- 2025-08-19:升级为国标 GB/T 46280 系列,正式发布[5]
- 2026-03-01:国标正式实施
| 维度 | CCITA(T/CESA 1248) | UCIe |
|---|---|---|
| 接口类型 | 并行 + 串行双模 | 仅并行(Advanced),串行留给 CPO |
| 协议层 | 自研 flit 包格式,声称兼容 UCIe 生态 | CXL/PCIe Streaming + 6 种标准 flit |
| 封装目标 | 国产基板(有机/2D/2.5D) | Intel/AMD/TSMC 先进封装(CoWoS/Foveros/InFO) |
| 设计理念 | 成本导向 + 供应链自主可控 | 性能导向 + 全球供应链 |
| 并行带宽 | 学术综述报道 6.4 TB/s aggregate[6] | 单 Module ~512 GB/s(Advanced x64 双向,v1.0 32 GT/s) |
@tbl-d2d-ccita-vs-ucie CCITA 与 UCIe 的定位对比
生态进展:合见工软(Univista)和奎芯科技(Quxinchip)已发布兼容 D2D PHY/Controller IP(2024-2025)。联盟官方表述"已有几家 IP 厂商支持",联合验证进行中,预计 3-5 年大规模集成。
路径二:ACC 1.0 — 纯串行低成本
ACC 1.0(Advanced Cost-driven Chiplet Interface)来自中国 Chiplet 产业联盟(独立于 CCITA),由清华姚期智团队主导[7]。
| 指标 | 数值 |
|---|---|
| 接口类型 | 高速串行 only(8 通道) |
| 单通道速率 | 32-128 Gbps |
| 端到端延迟 | <50 ns |
| 误码率(BER) | <10^-15 |
| 硅面积 | 2.13 mm²(14/12nm 工艺) |
| 协议层 | CXL 3.0 / AXI 4.0 / 自定义 Stream |
| 封装支持 | 2D + 2.5D,适配国产基板 |
@tbl-d2d-acc-spec ACC 1.0 规格
双标准定位对比
| 维度 | CCITA(T/CESA 1248) | ACC 1.0 |
|---|---|---|
| 接口类型 | 并行 + 串行 | 仅串行 |
| 速率量级 | 并行最高 6.4 TB/s aggregate(学术综述) | 32-128 Gbps/通道 |
| 延迟 | 未公开 | <50 ns |
| 协议 | 自研 flit + UCIe 兼容 | CXL 3.0 / AXI 4.0 / Stream |
| 牵头方 | 中科院计算所 | 清华姚期智 |
| 国标升级 | GB/T 46280 | 暂无 |
@tbl-d2d-ccita-vs-acc 国产双标准对比
两路差异化清晰:CCITA 对标 UCIe 覆盖全场景(并行 + 串行),ACC 走纯串行路线填补国产基板生态下的大规模 Chiplet 需求。两者不是替代关系,而是覆盖不同封装成本档位。
五标准定量怎么放在一张表?
在统一维度下扫五个标准,并行 D2D 海岸线密度差 1-2 个数量级,串行 D2D 退到通道速率维度。
| 指标 | UCIe v3.0(64 GT/s) | BoW Draft 1.9 | AIB 2.0 | CCITA(T/CESA 1248) | ACC 1.0 |
|---|---|---|---|---|---|
| 最高海岸线密度 | ~2634 GB/s/mm(Adv)/ ~448(Std) | ~128 GB/s/mm | ~375 GB/s/mm(估计) | 未公开 per-mm;6.4 TB/s aggregate(学术) | 串行架构,密度远低于并行 |
| 延迟(往返) | ~4 ns | <2-4 ns | ~5 ns | 未公开 | <50 ns |
| 功耗效率 | ~0.5 pJ/bit | 0.25-1 pJ/bit | ~1-2 pJ/bit(估计) | 未公开 | 未公开 |
| 单 lane 速率 | 4-64 GT/s | 2-32 Gbps | ~2 GT/s(1.0) | 未公开 | 32-128 Gbps/通道 |
| 最大传输距离 | ~25 mm(S)/ ~2 mm(A) | 片上短距 | ~2 mm(EMIB) | 未公开 | 未公开 |
| Bump 间距 | 100-130 μm(S)/ 25-55 μm(A)/ <10 μm(3D) | 标准 bump | ~55 μm(1.0) | 适配国产基板 | 适配国产基板 |
| 封装类型 | 有机 / Si interposer / EMIB / RDL / Hybrid | 有机 / Si interposer | EMIB / Si interposer | 国产有机 / 2D / 2.5D | 2D / 2.5D |
| 协议支持 | PCIe + CXL + Streaming | 无(PHY-only) | 无(PHY-only) | 自研 flit + UCIe 兼容 | CXL 3.0 / AXI 4.0 / Stream |
| 串行支持 | 无(留给 CPO) | 无 | 无 | 有(并串双模) | 仅串行 |
| 3D 堆叠 | 有(UCIe-3D) | 无 | 无 | 未覆盖 | 无 |
| 生态成熟度 | 事实标准,120+ 成员,IP 量产 | OCP 小众 | 开源但衰退 | 团标→国标,3-5 年生态培育 | 联盟标准,生态较新 |
| 治理 | UCIe Consortium | OCP/ODSA | CHIPS Alliance | CCITA / HiPi Forum | 中国 Chiplet 产业联盟 |
@tbl-d2d-five-comparison 五标准定量对比
两条选型直觉:
- 高带宽 + AI 加速器(跨 die TP):UCIe 或 CCITA 并行模式
- 低成本 + 中等带宽(IoT、车规、国产基板):ACC 串行或 BoW
AIB 已基本退出竞争。
D2D 带宽如何约束 LLM 并行策略?
D2D 类型锁定上层并行策略的天花板。这一节用三个推论说明 D2D 选择如何传导到部署方案。
跨 die TP:稳态带宽够、延迟够,关键是带宽密度
Transformer 跨 die 做 TP,每层需 2 次 all-reduce(attention 后 + FFN 后)。以 70B 模型($h=8192$,bf16,TP=2,$L=80$ 层)为例:每 token 每 all-reduce 通信量 = $2 \times 8192 \times 2 / 2 = 16$ KB,每层 ×2 = 32 KB/token/layer,全模型 = 32 KB × 80 = 2.56 MB/token。1000 tok/s(说明性假设)下稳态 D2D 需求 ~2.5 GB/s。
但稳态带宽不是真正的约束。TP 的瓶颈是延迟:all-reduce 需 $N-1$ 次环迭代,消息小时延迟占比主导。并行 D2D(UCIe)~4 ns,纯串行 D2D(ACC)<50 ns,TP=2 场景下 2 × latency 开销对串行可接受。
更尖锐的约束来自带宽下界:
$$\begin{equation} D2D_{bw} \gtrsim HBM_{bw} \;/\; t \label{eq:d2d-tp-threshold} \end{equation}$$其中 $t$ 为 TP 度。对 TP=2 双 die 70B 模型,HBM_bw ~3 TB/s/die,所需 D2D 带宽 $\gtrsim$ ~1.5 TB/s 才能避免成为新瓶颈。UCIe 并行可达,ACC 串行(~128 GB/s)差一个数量级——使用纯串行 D2D 的多 die 加速器无法做跨 die TP,TP 必须限定在单 die 内。
跨 die EP:带宽门槛低
MoE 模型的 EP all-to-all 通信量远低于 TP:每 token 每 destination die 仅数百字节(DeepSeek-V3 EP=8 场景 ~448 bytes/token/die)。1000 tok/s 下 per-die D2D 需求约 14 MB/s——任何 D2D(包括 ACC 串行 128 GB/s)都绰绰有余。
EP 的瓶颈是动态路由的负载不均,是调度问题不是互联问题。
FSE-DP:权重流式传输改变游戏规则
Expert Streaming(FSE-DP)提出 MoE 推理的颠覆范式:每份 expert weight slice 只存一个物理副本,tokens 到哪个 die 就按需把对应 expert 权重跨 die 流式传输过来[8]。这把 D2D 从"激活搬运通道"转变为"权重交付管道"。
关键实测:当 on-chip buffer < 14 MB 时,D2D 吞吐需达 ~512 GB/s(约 3 个 UCIe Module,每 Module ~170 GB/s 为论文特定配置下的有效带宽)才能维持 >60% 计算利用率。纯串行 D2D(128 GB/s)严重不足,FSE-DP 从"架构优势"退化为性能瓶颈。
三类设计落点
| D2D 类型 | 可行的并行策略 | 不可行 |
|---|---|---|
| 并行 D2D(UCIe / CCITA 并行) | 跨 die TP + EP + FSE-DP | — |
| 纯串行 D2D(ACC) | EP 跨 die,TP 限单 die | 跨 die TP、FSE-DP |
| 混合(推荐串行 D2D 加速器) | TP intra-die、EP/DP inter-die | — |
@tbl-d2d-parallelism-implications D2D 类型对应的并行策略
Takeaway
| 知识点 | 核心结论 |
|---|---|
| UCIe | 三层协议栈 + 三种封装变体 + 120+ 成员,已成事实国际标准 |
| BoW | PHY-only 极简方案,与 AI 加速器复杂协议需求不匹配,主流未采用 |
| AIB | Intel EMIB 遗产,开源后被 UCIe 取代;工程经验延续到 UCIe-A |
| 国产 CCITA | 并串双模,2025-08 升级国标 GB/T 46280,对标 UCIe 全场景覆盖 |
| 国产 ACC | 纯串行低成本,填补国产基板生态下的中等带宽 Chiplet 需求 |
| D2D ↔ 并行策略 | 并行 D2D 解锁跨 die TP + FSE-DP;纯串行 D2D 只能 EP 跨 die、TP 限单 die |
@tbl-d2d-takeaway 本文 Takeaway
局限与开放问题
本调研的局限:
- CCITA / ACC 的海岸线密度、功耗效率、精确 per-lane 速率未公开披露——6.4 TB/s 来自学术综述非官方 spec
- UCIe v3.0 48/64 GT/s 实测性能(vs 标称)尚无独立第三方测试报告
- FSE-DP 的 D2D 带宽分析基于 2026-03 arxiv 预印本,未经同行评议
- 截至 2026-05 公开资料,UCIe 4.0 与 GB/T 46280 后续 part 未发布
开放问题:
- CCITA 并行模式的 per-mm 海岸线密度与 per-lane 数据率
- UCIe v3.0 48/64 GT/s 模式下实测功耗(pJ/bit)与标称偏差
- ACC 1.0 与 CCITA 并行模式的标准化延迟基准测试
- FSE-DP 在 TP+EP 混合策略下的 D2D 带宽需求
- GB/T 46280 系列 Part 2/3/4 的完整国标文本
- CCITA 声称的 "UCIe 生态兼容" 具体实现方式(同 flit 还是 adapter 转换)
参考资料
- UCIe Consortium, UCIe Specifications v1.0–v3.0, 2022–2025. https://www.uciexpress.org/specifications
- OCP/ODSA, Bunch of Wires PHY Specification Draft 1.9d, 2023. https://opencomputeproject.github.io/ODSA-BoW/bow_specification.html
- CHIPS Alliance, AIB 2.0 Draft Specification, 2020. https://www.chipsalliance.org/news/aib-2-0-draft-specification/
- 腾讯云开发者社区,国产 Chiplet 标准深度解读,2022. https://cloud.tencent.com/developer/article/2261978
- SAMR(国家标准委),GB/T 46280.1-2025 芯粒互联接口规范 Part 1:总则,2025-08-19 发布 / 2026-03-01 实施。https://www.chinesestandard.net/PDF/English.aspx/GBT46280.1-2025
- 《计算机研究与发展》,芯粒互联技术综述,2024. https://crad.ict.ac.cn/article/doi/10.7544/issn1000-1239.202440585
- 21ic, ACC 1.0 标准发布,2023-03. https://www.21ic.com/a/953425.html
- Anonymous, Expert Streaming (FSE-DP), arxiv 2603.27624, 2026-03. https://arxiv.org/abs/2603.27624
延伸阅读
- UCIe 3.0 Announcement (Design & Reuse, 2025-08) — 48/64 GT/s 速率、运行时重校准、fast throttle、紧急关断
- Alphawave Semi UCIe Overview — UCIe vs AIB vs BoW vs LIPINCON 跨标准对比表
- UCIe Wikipedia — 成员名单、版本时间线、PHY 变体、协议架构汇总
- 3D InCites — UCIe 3.0 Full Speed Ahead — UCIe-S / A / 3D 三种封装变体的 bump pitch、密度对比
- HiPi Forum 里程碑(SESEC, 2026-01) — GB/T 46280 系列发布过程
- CCITA 联盟简介 — 联盟背景、发起方、成员构成
- Meta Engineering — Scaling LLM Inference (2025-10) — all-reduce 占端到端延迟最高 30% 的工程实测