跳到主要内容

Google TPU 8t/8i

Cloud Next 2026 第八代 TPU 训推分叉发布快照与落地状态判读

核心要点

  • 第八代 TPU 拆分为两颗芯片:8t(训练)和 8i(推理),Google 首次按任务分叉
  • 8i 引入 Boardfly 拓扑,MoE all-to-all 跳数从 16 降到 7,延迟减半
  • ICI 带宽 19.2 Tb/s(Ironwood 的 2×),Virgo scale-out 网络 47 Pb/s
  • 全部未出货(计划 2026 年底),无第三方实测

本文定位:这是一篇 Cloud Next 2026 的"事件快照",聚焦 TPU 8t/8i 代际变化。ICI 协议机制见 1.8 Google TPU ICI(Boardfly 拓扑待出货后补充),本文只做新代际参数 + 落地判读。

这场发布的核心变化是什么?

核心问题:第八代 TPU 和前七代最本质的差异是什么?

Google 首次把 TPU 拆成两颗芯片——一颗做训练,一颗做推理。 前七代 TPU 都是"一颗芯片通吃",v8 是第一次按工作负载分叉,标志着 Google 认可"训练和推理对芯片的需求已经分化到不值得在同一颗 die 上兼顾"[1]

两芯片的定位差异:

维度TPU 8t(Training)TPU 8i(Inference)
合作方BroadcomMediaTek
FP4 峰值12.6 PFLOPs10.1 PFLOPs
HBM3e 容量216 GB288 GB
HBM3e 带宽6,528 GB/s8,601 GB/s(~1.3× vs 8t)
片上 SRAM(Vmem)128 MB384 MB(3× 前代)
专用加速器SparseCore(Embeddings)、LLM Decoder EngineCAE(Collectives Acceleration Engine)
ICI 拓扑3D TorusBoardfly(层级高基数)
Pod 规模9,600 chips1,024 active / 1,152 physical chips(36 组)

@tbl-tpu8-specs TPU 8t vs 8i 规格对比

8i 的 HBM 比 8t 多 72 GB、带宽高 1.3×,但算力低 20%——推理是 memory-bound,decode 阶段反复读 KV Cache,宁可减算力也要堆带宽。这跟 NVIDIA Rubin CPX 的"prefill 用 GDDR7、decode 用 HBM4"是同一逻辑,但 Google 选择在芯片级分叉而非系统级。

Boardfly 拓扑是什么?

核心问题:8i 为什么不用 3D Torus 而搞了一个新拓扑?

Boardfly 是 Google 为 MoE 推理专门设计的层级高基数拓扑,核心目标是把 all-to-all 通信的跳数砍半。 3D Torus 每芯片只连近邻,all-to-all 最多走 16 跳;Boardfly 用两层结构把跳数压到 7[2]

Boardfly 的三层结构:

层级结构说明
基础单元4 芯片环形最小构建块
组(Group)8 块板铜缆全互联高基数电交换
Pod36 组通过 OCS(光电路交换机)连接1,024 活跃 / 1,152 物理 chips

@tbl-tpu8-boardfly Boardfly 三层结构

效果:端到端延迟减半(vs Torus)。CAE 片上集合通信延迟降 5×,MoE 推理的 all-to-all dispatch/combine 直接受益——跳数少一半意味着 expert 路由的通信开销砍半。

值得注意:Boardfly 目前只到 1,024 chips 的 Pod 规模,远小于 8t 的 9,600 chips。Google 在推理场景中牺牲了绝对规模上限,换了低延迟。这是否意味着 TPU 推理的 EP 度最多到 1,024——如果是,这个数字对 Tier6 的 EP 建模有参考价值。

ICI 和 Scale-Out 网络怎么演进?

核心问题:第八代互联带宽和上一代 Ironwood 比涨了多少?

ICI 带宽翻倍,Scale-Out 网络首次引入 Virgo 架构[2]

互联层级Ironwood(v7)TPU 8t/8i(v8)提升
ICI 带宽(每芯片,双向)~9.6 Tb/s / 1,200 GB/s(第三方按 v8=2×v7 反推)19.2 Tb/s(官方)
ICI 拓扑3D Torus8t: 3D Torus / 8i: Boardfly推理分叉
Scale-Out 网络Virgo,47 Pb/s 非阻塞对分带宽,>134,000 chips全新
最大集群规模9,216 chips>100 万 chips(通过 JAX/Pathways)100×+

@tbl-tpu8-ici ICI 代际对比

Virgo 是 Google 的 scale-out 专用网络,类似 NVIDIA 的 Spectrum-X 但仅为 TPU 设计。47 Pb/s 非阻塞对分带宽意味着跨 Pod 通信不再是瓶颈——这对 EP 跨 Pod 切分有直接意义。

软件生态进展

PyTorch 原生支持首次进入 preview。此前 TPU 主力框架是 JAX,PyTorch 用户需要 XLA 转译。8t/8i 的 PyTorch 原生支持(preview 阶段)意味着 Google 在向 PyTorch 生态靠拢。vLLM 已集成,这对推理部署是重要信号。

落地状态

全部未出货。 8t 和 8i 均计划 2026 年底出货,目前仅开放"提交意向表"。软件栈(PyTorch 原生支持)在 preview 阶段。

产品落地状态数据可信度
TPU 8t计划 2026 年底出货厂商规格
TPU 8i计划 2026 年底出货厂商规格
Virgo 网络计划 2026 年底厂商规格
Boardfly 拓扑8i 专用,未出货厂商规格
Ironwood(v7)2025 已发布,GA 状态不明厂商规格

@tbl-tpu8-landing 落地状态

与 Tier6 的关联

  • Boardfly 拓扑:如果 Google 公开 Boardfly 的详细互联参数(每跳带宽/延迟),可作为 Tier6 拓扑建模的新输入
  • EP 度上限:8i Pod 1,024 chips 的规模暗示推理 EP 度的潜在上限
  • ICI 代际数据:19.2 Tb/s 可更新到 08-google-ici.md 的代际表(待出货后)

Takeaway

知识点核心结论
分叉策略训练 8t + 推理 8i,Google 首次按工作负载拆芯片
8i 设计哲学宁减算力堆带宽:288 GB HBM + 8,601 GB/s + 384 MB SRAM
Boardfly 拓扑推理专用,两层高基数结构,跳数 16→7,延迟减半
CAE片上集合通信加速,延迟降 5×,MoE all-to-all 直接受益
ICI 带宽19.2 Tb/s(Ironwood 2×),Virgo scale-out 47 Pb/s
落地状态全部未出货,计划 2026 年底
软件PyTorch 原生支持 preview,vLLM 已集成

参考资料

  1. Google, Our eighth generation TPUs: two chips for the agentic era, 2026-04-22. https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
  2. Google Cloud, TPU 8t and TPU 8i technical deep dive, 2026-04-23. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

延伸阅读