Google TPU 8t/8i
Cloud Next 2026 第八代 TPU 训推分叉发布快照与落地状态判读
核心要点:
- 第八代 TPU 拆分为两颗芯片:8t(训练)和 8i(推理),Google 首次按任务分叉
- 8i 引入 Boardfly 拓扑,MoE all-to-all 跳数从 16 降到 7,延迟减半
- ICI 带宽 19.2 Tb/s(Ironwood 的 2×),Virgo scale-out 网络 47 Pb/s
- 全部未出货(计划 2026 年底),无第三方实测
本文定位:这是一篇 Cloud Next 2026 的"事件快照",聚焦 TPU 8t/8i 代际变化。ICI 协议机制见 1.8 Google TPU ICI(Boardfly 拓扑待出货后补充),本文只做新代际参数 + 落地判读。
这场发布的核心变化是什么?
核心问题:第八代 TPU 和前七代最本质的差异是什么?
Google 首次把 TPU 拆成两颗芯片——一颗做训练,一颗做推理。 前七代 TPU 都是"一颗芯片通吃",v8 是第一次按工作负载分叉,标志着 Google 认可"训练和推理对芯片的需求已经分化到不值得在同一颗 die 上兼顾"[1]。
两芯片的定位差异:
| 维度 | TPU 8t(Training) | TPU 8i(Inference) |
|---|---|---|
| 合作方 | Broadcom | MediaTek |
| FP4 峰值 | 12.6 PFLOPs | 10.1 PFLOPs |
| HBM3e 容量 | 216 GB | 288 GB |
| HBM3e 带宽 | 6,528 GB/s | 8,601 GB/s(~1.3× vs 8t) |
| 片上 SRAM(Vmem) | 128 MB | 384 MB(3× 前代) |
| 专用加速器 | SparseCore(Embeddings)、LLM Decoder Engine | CAE(Collectives Acceleration Engine) |
| ICI 拓扑 | 3D Torus | Boardfly(层级高基数) |
| Pod 规模 | 9,600 chips | 1,024 active / 1,152 physical chips(36 组) |
@tbl-tpu8-specs TPU 8t vs 8i 规格对比
8i 的 HBM 比 8t 多 72 GB、带宽高 1.3×,但算力低 20%——推理是 memory-bound,decode 阶段反复读 KV Cache,宁可减算力也要堆带宽。这跟 NVIDIA Rubin CPX 的"prefill 用 GDDR7、decode 用 HBM4"是同一逻辑,但 Google 选择在芯片级分叉而非系统级。
Boardfly 拓扑是什么?
核心问题:8i 为什么不用 3D Torus 而搞了一个新拓扑?
Boardfly 是 Google 为 MoE 推理专门设计的层级高基数拓扑,核心目标是把 all-to-all 通信的跳数砍半。 3D Torus 每芯片只连近邻,all-to-all 最多走 16 跳;Boardfly 用两层结构把跳数压到 7[2]。
Boardfly 的三层结构:
| 层级 | 结构 | 说明 |
|---|---|---|
| 基础单元 | 4 芯片环形 | 最小构建块 |
| 组(Group) | 8 块板铜缆全互联 | 高基数电交换 |
| Pod | 36 组通过 OCS(光电路交换机)连接 | 1,024 活跃 / 1,152 物理 chips |
@tbl-tpu8-boardfly Boardfly 三层结构
效果:端到端延迟减半(vs Torus)。CAE 片上集合通信延迟降 5×,MoE 推理的 all-to-all dispatch/combine 直接受益——跳数少一半意味着 expert 路由的通信开销砍半。
值得注意:Boardfly 目前只到 1,024 chips 的 Pod 规模,远小于 8t 的 9,600 chips。Google 在推理场景中牺牲了绝对规模上限,换了低延迟。这是否意味着 TPU 推理的 EP 度最多到 1,024——如果是,这个数字对 Tier6 的 EP 建模有参考价值。
ICI 和 Scale-Out 网络怎么演进?
核心问题:第八代互联带宽和上一代 Ironwood 比涨了多少?
ICI 带宽翻倍,Scale-Out 网络首次引入 Virgo 架构[2]。
| 互联层级 | Ironwood(v7) | TPU 8t/8i(v8) | 提升 |
|---|---|---|---|
| ICI 带宽(每芯片,双向) | ~9.6 Tb/s / 1,200 GB/s(第三方按 v8=2×v7 反推) | 19.2 Tb/s(官方) | 2× |
| ICI 拓扑 | 3D Torus | 8t: 3D Torus / 8i: Boardfly | 推理分叉 |
| Scale-Out 网络 | — | Virgo,47 Pb/s 非阻塞对分带宽,>134,000 chips | 全新 |
| 最大集群规模 | 9,216 chips | >100 万 chips(通过 JAX/Pathways) | 100×+ |
@tbl-tpu8-ici ICI 代际对比
Virgo 是 Google 的 scale-out 专用网络,类似 NVIDIA 的 Spectrum-X 但仅为 TPU 设计。47 Pb/s 非阻塞对分带宽意味着跨 Pod 通信不再是瓶颈——这对 EP 跨 Pod 切分有直接意义。
软件生态进展
PyTorch 原生支持首次进入 preview。此前 TPU 主力框架是 JAX,PyTorch 用户需要 XLA 转译。8t/8i 的 PyTorch 原生支持(preview 阶段)意味着 Google 在向 PyTorch 生态靠拢。vLLM 已集成,这对推理部署是重要信号。
落地状态
全部未出货。 8t 和 8i 均计划 2026 年底出货,目前仅开放"提交意向表"。软件栈(PyTorch 原生支持)在 preview 阶段。
| 产品 | 落地状态 | 数据可信度 |
|---|---|---|
| TPU 8t | 计划 2026 年底出货 | 厂商规格 |
| TPU 8i | 计划 2026 年底出货 | 厂商规格 |
| Virgo 网络 | 计划 2026 年底 | 厂商规格 |
| Boardfly 拓扑 | 8i 专用,未出货 | 厂商规格 |
| Ironwood(v7) | 2025 已发布,GA 状态不明 | 厂商规格 |
@tbl-tpu8-landing 落地状态
与 Tier6 的关联
- Boardfly 拓扑:如果 Google 公开 Boardfly 的详细互联参数(每跳带宽/延迟),可作为 Tier6 拓扑建模的新输入
- EP 度上限:8i Pod 1,024 chips 的规模暗示推理 EP 度的潜在上限
- ICI 代际数据:19.2 Tb/s 可更新到
08-google-ici.md的代际表(待出货后)
Takeaway
| 知识点 | 核心结论 |
|---|---|
| 分叉策略 | 训练 8t + 推理 8i,Google 首次按工作负载拆芯片 |
| 8i 设计哲学 | 宁减算力堆带宽:288 GB HBM + 8,601 GB/s + 384 MB SRAM |
| Boardfly 拓扑 | 推理专用,两层高基数结构,跳数 16→7,延迟减半 |
| CAE | 片上集合通信加速,延迟降 5×,MoE all-to-all 直接受益 |
| ICI 带宽 | 19.2 Tb/s(Ironwood 2×),Virgo scale-out 47 Pb/s |
| 落地状态 | 全部未出货,计划 2026 年底 |
| 软件 | PyTorch 原生支持 preview,vLLM 已集成 |
参考资料
- Google, Our eighth generation TPUs: two chips for the agentic era, 2026-04-22. https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
- Google Cloud, TPU 8t and TPU 8i technical deep dive, 2026-04-23. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive
延伸阅读
- 1.8 Google TPU ICI — TPU ICI 协议机制、Torus 拓扑、OCS 光交换深度调研
- 1.3 NVIDIA Rubin 平台 — NVIDIA Rubin 平台同期发布