跳到主要内容

Chiplet D2D 标准

UCIe/BoW/AIB/CCITA/ACC 五家协议栈并串路线如何决定并行策略上限

核心要点

  • UCIe 是事实国际 D2D 标准:三层协议栈 + 三种封装变体,120+ 成员
  • BoW 是 PHY-only 极简方案:无协议栈,主流 AI 加速器未采用
  • AIB 是 Intel EMIB 遗产标准:开源后被 UCIe 取代
  • 国产分两路:CCITA 并串双模升级国标 GB/T 46280,ACC 纯串行低成本路线
  • D2D 类型锁定并行策略上限:并行 D2D 可支撑跨 die TP,纯串行只能支撑 EP

前置阅读

UCIe 为什么成为事实国际标准?

UCIe 的胜出来自三层协议栈完备 + 三种封装变体覆盖 + 大联盟驱动。Intel、AMD、Arm、TSMC、Samsung、Microsoft、Meta、Google Cloud、Qualcomm、ASE 于 2022-03 联合发起,现已吸纳 120+ 成员(含 2022-08 加入的 NVIDIA 与阿里巴巴)[1]

三层协议栈

  • PHY(物理层):电信号、时钟、bump map 定义;区分三种封装变体 S / A / 3D
  • Die-to-Die Adapter(适配层):链路状态管理、参数协商、CRC 重试、健康监控(v1.1+)、在线修复
  • Protocol Layer(协议层):原生映射 PCIe 和 CXL(256B FLIT 支持 CXL.io/.mem/.cache);v1.1 起支持并发多协议;Streaming 桥接支持 AMBA AXI/CXS/CHI 等自定义协议

三种封装变体的密度差异

变体封装类型Bump 间距典型传输距离海岸线密度(v3.0, 64 GT/s)
UCIe-S(Standard)有机基板 / laminate100-130 μm~25 mm~448 GB/s/mm
UCIe-A(Advanced)Si interposer / EMIB / RDL fanout25-55 μm~2 mm~2634 GB/s/mm
UCIe-3D(Hybrid Bonding)3D 垂直堆叠<10 μm垂直方向最高(未定标)

@tbl-d2d-ucie-phy UCIe 三种封装变体的密度对比(v3.0 64 GT/s)

关键参数:单 lane 速率 v1.0 最高 32 GT/s,v3.0 新增 48 / 64 GT/s(吞吐翻倍);协议栈 + PHY 往返延迟 ~4 ns;功耗效率 ~0.5 pJ/bit(约为 PCIe Gen5 SerDes 的 1/10)。

版本演进

版本发布时间关键变化
1.02022-03初始规范:PHY、协议栈、软件架构、合规框架
1.12023-08运行时健康监控/修复、降成本 bump map、并发多协议、车规级可靠性
2.02024-08全面可管理性/调试/测试、3D 封装优化、完全向后兼容
3.02025-0848/64 GT/s 速率、运行时重校准、快速节流/紧急关断、优先级 sideband 消息

@tbl-d2d-ucie-versions UCIe 版本演进

产业采纳已从 Intel Ponte Vecchio、AMD MI300、Samsung 芯片等早期产品扩展到多家 IP 供应商(Synopsys / Alphawave Semi / Cadence)的多工艺节点 PHY/Controller IP 生态。

为什么 BoW 在 AI 芯片上几乎没采用?

BoW 是 PHY-only 极简方案,与 AI 加速器需求的复杂协议组合不匹配。BoW 由 OCP/ODSA(Open Domain-Specific Architecture)工作组维护,设计理念是"去掉一切不需要的复杂度"——只定义 PHY 层,不绑定协议栈[2]

规格要点

  • 架构:并行 DDR 源同步接口;每个 slice 含 16 条数据线 + 互补时钟 + 可选 FEC/AUX
  • 速率:单线 2-32 Gbps,6 种工作模式;slice 总带宽 32-512 Gbps
  • 海岸线密度:标准 bump 320-1024 Gbps/mm(~40-128 GB/s/mm),Advanced 可达 1+ Tbps/mm
  • 功耗:0.25-0.5 pJ/bit(非端接)/ 0.5-1 pJ/bit(双端接)——五者中最低
  • 延迟:链路 <2-4 ns;仅支持片上短距互联

BoW vs UCIe 的对比

维度BoWUCIe
范围PHY-only全栈(PHY + Adapter + Protocol)
协议支持无原生 PCIe/CXLPCIe/CXL + Streaming
复杂度极低
功耗0.25-1 pJ/bit~0.5 pJ/bit
生态OCP/ODSA 小众120+ 成员事实标准

@tbl-d2d-bow-vs-ucie BoW 与 UCIe 的分层对比

BoW 适用于成本敏感、功能简单的 Chiplet 设计——不需多协议兼容、只需带宽、希望 IP 实现复杂度最低。但 AI 加速器需要处理 PCIe/CXL 主机接口 + HBM 访存 + chip-to-chip 直连的复杂协议组合,BoW 在这里恰好缺位。BoW spec 截至 2023-01 仍为 Draft 1.9d,无公开量产商用产品以 BoW 作为主 D2D 接口。

AIB 为何被 UCIe 取代?

AIB 是 PHY-only 标准,缺少协议栈与生态扩展能力,被 UCIe 全栈方案取代。AIB 源于 Intel 为 EMIB 封装设计的 PHY 接口,在 Stratix 10 FPGA(连接 FPGA die 与 HBM)和 Ponte Vecchio GPU(UCIe 前时代)使用[3]

规格要点

  • 协议形式:PHY-only,上层协议(PCIe/AXI/Streaming)由用户自实现
  • 架构:并行源同步时钟、可调电压/频率、credit-based 流控、独立 TX/RX 时钟域
  • 延迟:~5 ns(PHY 往返)
  • 功耗:未公开精确值,估计 ~1-2 pJ/bit
版本数据率海岸线密度Bump 间距
AIB 1.0~2 GT/s/pin~504 Gbps/mm(~63 GB/s/mm)~55 μm
AIB 2.0(draft)更高(未公开)>6× AIB 1.0,估计 >3000 Gbps/mm约 1.0 的一半

@tbl-d2d-aib-versions AIB 版本与规格

开源与衰退

Intel 于 2020 年将 AIB 贡献给 CHIPS Alliance(Linux Foundation),royalty-free 开源,GitHub chipsalliance/aib-phy-hardware 含 1.0/2.0 RTL 和 cell model。但 UCIe 崛起后,AIB 商业牵引力持续下降——Intel 自身新产品已转向 UCIe。AIB 的工程遗产在 UCIe-A(Advanced Package PHY)中得以延续。

国产 D2D 走了哪两条路径?

国内出现 CCITA 并串双模与 ACC 纯串行低成本两条独立路径,分别对应两个独立联盟。

路径一:CCITA — 从团标到国标

CCITA(中国计算机互连技术联盟)由中科院计算所 + 工信部电子四院牵头,联合 60+ 国产供应链单位,发起人为郝沁汾[4]

标准历程

  • 2020-12:首届全国互联技术产业大会
  • 2022-12:发布 T/CESA 1248-2023《小芯片接口总线技术要求》
  • 2023-01:T/CESA 1248 正式实施
  • 2025-08-19:升级为国标 GB/T 46280 系列,正式发布[5]
  • 2026-03-01:国标正式实施
维度CCITA(T/CESA 1248)UCIe
接口类型并行 + 串行双模仅并行(Advanced),串行留给 CPO
协议层自研 flit 包格式,声称兼容 UCIe 生态CXL/PCIe Streaming + 6 种标准 flit
封装目标国产基板(有机/2D/2.5D)Intel/AMD/TSMC 先进封装(CoWoS/Foveros/InFO)
设计理念成本导向 + 供应链自主可控性能导向 + 全球供应链
并行带宽学术综述报道 6.4 TB/s aggregate[6]单 Module ~512 GB/s(Advanced x64 双向,v1.0 32 GT/s)

@tbl-d2d-ccita-vs-ucie CCITA 与 UCIe 的定位对比

生态进展:合见工软(Univista)和奎芯科技(Quxinchip)已发布兼容 D2D PHY/Controller IP(2024-2025)。联盟官方表述"已有几家 IP 厂商支持",联合验证进行中,预计 3-5 年大规模集成。

路径二:ACC 1.0 — 纯串行低成本

ACC 1.0(Advanced Cost-driven Chiplet Interface)来自中国 Chiplet 产业联盟(独立于 CCITA),由清华姚期智团队主导[7]

指标数值
接口类型高速串行 only(8 通道)
单通道速率32-128 Gbps
端到端延迟<50 ns
误码率(BER)<10^-15
硅面积2.13 mm²(14/12nm 工艺)
协议层CXL 3.0 / AXI 4.0 / 自定义 Stream
封装支持2D + 2.5D,适配国产基板

@tbl-d2d-acc-spec ACC 1.0 规格

双标准定位对比

维度CCITA(T/CESA 1248)ACC 1.0
接口类型并行 + 串行仅串行
速率量级并行最高 6.4 TB/s aggregate(学术综述)32-128 Gbps/通道
延迟未公开<50 ns
协议自研 flit + UCIe 兼容CXL 3.0 / AXI 4.0 / Stream
牵头方中科院计算所清华姚期智
国标升级GB/T 46280暂无

@tbl-d2d-ccita-vs-acc 国产双标准对比

两路差异化清晰:CCITA 对标 UCIe 覆盖全场景(并行 + 串行),ACC 走纯串行路线填补国产基板生态下的大规模 Chiplet 需求。两者不是替代关系,而是覆盖不同封装成本档位。

五标准定量怎么放在一张表?

在统一维度下扫五个标准,并行 D2D 海岸线密度差 1-2 个数量级,串行 D2D 退到通道速率维度

指标UCIe v3.0(64 GT/s)BoW Draft 1.9AIB 2.0CCITA(T/CESA 1248)ACC 1.0
最高海岸线密度~2634 GB/s/mm(Adv)/ ~448(Std)~128 GB/s/mm~375 GB/s/mm(估计)未公开 per-mm;6.4 TB/s aggregate(学术)串行架构,密度远低于并行
延迟(往返)~4 ns<2-4 ns~5 ns未公开<50 ns
功耗效率~0.5 pJ/bit0.25-1 pJ/bit~1-2 pJ/bit(估计)未公开未公开
单 lane 速率4-64 GT/s2-32 Gbps~2 GT/s(1.0)未公开32-128 Gbps/通道
最大传输距离~25 mm(S)/ ~2 mm(A)片上短距~2 mm(EMIB)未公开未公开
Bump 间距100-130 μm(S)/ 25-55 μm(A)/ <10 μm(3D)标准 bump~55 μm(1.0)适配国产基板适配国产基板
封装类型有机 / Si interposer / EMIB / RDL / Hybrid有机 / Si interposerEMIB / Si interposer国产有机 / 2D / 2.5D2D / 2.5D
协议支持PCIe + CXL + Streaming无(PHY-only)无(PHY-only)自研 flit + UCIe 兼容CXL 3.0 / AXI 4.0 / Stream
串行支持无(留给 CPO)有(并串双模)仅串行
3D 堆叠有(UCIe-3D)未覆盖
生态成熟度事实标准,120+ 成员,IP 量产OCP 小众开源但衰退团标→国标,3-5 年生态培育联盟标准,生态较新
治理UCIe ConsortiumOCP/ODSACHIPS AllianceCCITA / HiPi Forum中国 Chiplet 产业联盟

@tbl-d2d-five-comparison 五标准定量对比

两条选型直觉

  • 高带宽 + AI 加速器(跨 die TP):UCIe 或 CCITA 并行模式
  • 低成本 + 中等带宽(IoT、车规、国产基板):ACC 串行或 BoW

AIB 已基本退出竞争。

D2D 带宽如何约束 LLM 并行策略?

D2D 类型锁定上层并行策略的天花板。这一节用三个推论说明 D2D 选择如何传导到部署方案。

跨 die TP:稳态带宽够、延迟够,关键是带宽密度

Transformer 跨 die 做 TP,每层需 2 次 all-reduce(attention 后 + FFN 后)。以 70B 模型($h=8192$,bf16,TP=2,$L=80$ 层)为例:每 token 每 all-reduce 通信量 = $2 \times 8192 \times 2 / 2 = 16$ KB,每层 ×2 = 32 KB/token/layer,全模型 = 32 KB × 80 = 2.56 MB/token。1000 tok/s(说明性假设)下稳态 D2D 需求 ~2.5 GB/s。

但稳态带宽不是真正的约束。TP 的瓶颈是延迟:all-reduce 需 $N-1$ 次环迭代,消息小时延迟占比主导。并行 D2D(UCIe)~4 ns,纯串行 D2D(ACC)<50 ns,TP=2 场景下 2 × latency 开销对串行可接受

更尖锐的约束来自带宽下界:

$$\begin{equation} D2D_{bw} \gtrsim HBM_{bw} \;/\; t \label{eq:d2d-tp-threshold} \end{equation}$$

其中 $t$ 为 TP 度。对 TP=2 双 die 70B 模型,HBM_bw ~3 TB/s/die,所需 D2D 带宽 $\gtrsim$ ~1.5 TB/s 才能避免成为新瓶颈。UCIe 并行可达,ACC 串行(~128 GB/s)差一个数量级——使用纯串行 D2D 的多 die 加速器无法做跨 die TP,TP 必须限定在单 die 内

跨 die EP:带宽门槛低

MoE 模型的 EP all-to-all 通信量远低于 TP:每 token 每 destination die 仅数百字节(DeepSeek-V3 EP=8 场景 ~448 bytes/token/die)。1000 tok/s 下 per-die D2D 需求约 14 MB/s——任何 D2D(包括 ACC 串行 128 GB/s)都绰绰有余。

EP 的瓶颈是动态路由的负载不均,是调度问题不是互联问题。

FSE-DP:权重流式传输改变游戏规则

Expert Streaming(FSE-DP)提出 MoE 推理的颠覆范式:每份 expert weight slice 只存一个物理副本,tokens 到哪个 die 就按需把对应 expert 权重跨 die 流式传输过来[8]。这把 D2D 从"激活搬运通道"转变为"权重交付管道"。

关键实测:当 on-chip buffer < 14 MB 时,D2D 吞吐需达 ~512 GB/s(约 3 个 UCIe Module,每 Module ~170 GB/s 为论文特定配置下的有效带宽)才能维持 >60% 计算利用率。纯串行 D2D(128 GB/s)严重不足,FSE-DP 从"架构优势"退化为性能瓶颈

三类设计落点

D2D 类型可行的并行策略不可行
并行 D2D(UCIe / CCITA 并行)跨 die TP + EP + FSE-DP
纯串行 D2D(ACC)EP 跨 die,TP 限单 die跨 die TP、FSE-DP
混合(推荐串行 D2D 加速器)TP intra-die、EP/DP inter-die

@tbl-d2d-parallelism-implications D2D 类型对应的并行策略

Takeaway

知识点核心结论
UCIe三层协议栈 + 三种封装变体 + 120+ 成员,已成事实国际标准
BoWPHY-only 极简方案,与 AI 加速器复杂协议需求不匹配,主流未采用
AIBIntel EMIB 遗产,开源后被 UCIe 取代;工程经验延续到 UCIe-A
国产 CCITA并串双模,2025-08 升级国标 GB/T 46280,对标 UCIe 全场景覆盖
国产 ACC纯串行低成本,填补国产基板生态下的中等带宽 Chiplet 需求
D2D ↔ 并行策略并行 D2D 解锁跨 die TP + FSE-DP;纯串行 D2D 只能 EP 跨 die、TP 限单 die

@tbl-d2d-takeaway 本文 Takeaway

局限与开放问题

本调研的局限

  • CCITA / ACC 的海岸线密度、功耗效率、精确 per-lane 速率未公开披露——6.4 TB/s 来自学术综述非官方 spec
  • UCIe v3.0 48/64 GT/s 实测性能(vs 标称)尚无独立第三方测试报告
  • FSE-DP 的 D2D 带宽分析基于 2026-03 arxiv 预印本,未经同行评议
  • 截至 2026-05 公开资料,UCIe 4.0 与 GB/T 46280 后续 part 未发布

开放问题

  • CCITA 并行模式的 per-mm 海岸线密度与 per-lane 数据率
  • UCIe v3.0 48/64 GT/s 模式下实测功耗(pJ/bit)与标称偏差
  • ACC 1.0 与 CCITA 并行模式的标准化延迟基准测试
  • FSE-DP 在 TP+EP 混合策略下的 D2D 带宽需求
  • GB/T 46280 系列 Part 2/3/4 的完整国标文本
  • CCITA 声称的 "UCIe 生态兼容" 具体实现方式(同 flit 还是 adapter 转换)

参考资料

  1. UCIe Consortium, UCIe Specifications v1.0–v3.0, 2022–2025. https://www.uciexpress.org/specifications
  2. OCP/ODSA, Bunch of Wires PHY Specification Draft 1.9d, 2023. https://opencomputeproject.github.io/ODSA-BoW/bow_specification.html
  3. CHIPS Alliance, AIB 2.0 Draft Specification, 2020. https://www.chipsalliance.org/news/aib-2-0-draft-specification/
  4. 腾讯云开发者社区,国产 Chiplet 标准深度解读,2022. https://cloud.tencent.com/developer/article/2261978
  5. SAMR(国家标准委),GB/T 46280.1-2025 芯粒互联接口规范 Part 1:总则,2025-08-19 发布 / 2026-03-01 实施。https://www.chinesestandard.net/PDF/English.aspx/GBT46280.1-2025
  6. 《计算机研究与发展》,芯粒互联技术综述,2024. https://crad.ict.ac.cn/article/doi/10.7544/issn1000-1239.202440585
  7. 21ic, ACC 1.0 标准发布,2023-03. https://www.21ic.com/a/953425.html
  8. Anonymous, Expert Streaming (FSE-DP), arxiv 2603.27624, 2026-03. https://arxiv.org/abs/2603.27624

延伸阅读