Google TPU 8t/8i

Cloud Next 2026 第八代 TPU 训推分叉发布快照与落地状态判读

核心要点：

第八代 TPU 拆分为两颗芯片：8t（训练）和 8i（推理），Google 首次按任务分叉

8i 引入 Boardfly 拓扑，MoE all-to-all 跳数从 16 降到 7，延迟减半

ICI 带宽 19.2 Tb/s（Ironwood 的 2×），Virgo scale-out 网络 47 Pb/s

全部未出货（计划 2026 年底），无第三方实测

本文定位：这是一篇 Cloud Next 2026 的"事件快照"，聚焦 TPU 8t/8i 代际变化。ICI 协议机制见 1.8 Google TPU ICI（Boardfly 拓扑待出货后补充），本文只做新代际参数 + 落地判读。

这场发布的核心变化是什么？

核心问题：第八代 TPU 和前七代最本质的差异是什么？

Google 首次把 TPU 拆成两颗芯片——一颗做训练，一颗做推理。 前七代 TPU 都是"一颗芯片通吃"，v8 是第一次按工作负载分叉，标志着 Google 认可"训练和推理对芯片的需求已经分化到不值得在同一颗 die 上兼顾"[1]。

两芯片的定位差异：

维度	TPU 8t（Training）	TPU 8i（Inference）
合作方	Broadcom	MediaTek
FP4 峰值	12.6 PFLOPs	10.1 PFLOPs
HBM3e 容量	216 GB	288 GB
HBM3e 带宽	6,528 GB/s	8,601 GB/s（~1.3× vs 8t）
片上 SRAM（Vmem）	128 MB	384 MB（3× 前代）
专用加速器	SparseCore（Embeddings）、LLM Decoder Engine	CAE（Collectives Acceleration Engine）
ICI 拓扑	3D Torus	Boardfly（层级高基数）
Pod 规模	9,600 chips	1,024 active / 1,152 physical chips（36 组）

@tbl-tpu8-specs TPU 8t vs 8i 规格对比

8i 的 HBM 比 8t 多 72 GB、带宽高 1.3×，但算力低 20%——推理是 memory-bound，decode 阶段反复读 KV Cache，宁可减算力也要堆带宽。这跟 NVIDIA Rubin CPX 的"prefill 用 GDDR7、decode 用 HBM4"是同一逻辑，但 Google 选择在芯片级分叉而非系统级。

Boardfly 拓扑是什么？

核心问题：8i 为什么不用 3D Torus 而搞了一个新拓扑？

Boardfly 是 Google 为 MoE 推理专门设计的层级高基数拓扑，核心目标是把 all-to-all 通信的跳数砍半。 3D Torus 每芯片只连近邻，all-to-all 最多走 16 跳；Boardfly 用两层结构把跳数压到 7[2]。

Boardfly 的三层结构：

层级	结构	说明
基础单元	4 芯片环形	最小构建块
组（Group）	8 块板铜缆全互联	高基数电交换
Pod	36 组通过 OCS（光电路交换机）连接	1,024 活跃 / 1,152 物理 chips

@tbl-tpu8-boardfly Boardfly 三层结构

效果：端到端延迟减半（vs Torus）。CAE 片上集合通信延迟降 5×，MoE 推理的 all-to-all dispatch/combine 直接受益——跳数少一半意味着 expert 路由的通信开销砍半。

值得注意：Boardfly 目前只到 1,024 chips 的 Pod 规模，远小于 8t 的 9,600 chips。Google 在推理场景中牺牲了绝对规模上限，换了低延迟。这是否意味着 TPU 推理的 EP 度最多到 1,024——如果是，这个数字对 Tier6 的 EP 建模有参考价值。

ICI 和 Scale-Out 网络怎么演进？

核心问题：第八代互联带宽和上一代 Ironwood 比涨了多少？

ICI 带宽翻倍，Scale-Out 网络首次引入 Virgo 架构[2]。

互联层级	Ironwood（v7）	TPU 8t/8i（v8）	提升
ICI 带宽（每芯片，双向）	~9.6 Tb/s / 1,200 GB/s（第三方按 v8=2×v7 反推）	19.2 Tb/s（官方）	2×
ICI 拓扑	3D Torus	8t: 3D Torus / 8i: Boardfly	推理分叉
Scale-Out 网络	—	Virgo，47 Pb/s 非阻塞对分带宽，>134,000 chips	全新
最大集群规模	9,216 chips	>100 万 chips（通过 JAX/Pathways）	100×+

@tbl-tpu8-ici ICI 代际对比

Virgo 是 Google 的 scale-out 专用网络，类似 NVIDIA 的 Spectrum-X 但仅为 TPU 设计。47 Pb/s 非阻塞对分带宽意味着跨 Pod 通信不再是瓶颈——这对 EP 跨 Pod 切分有直接意义。

软件生态进展

PyTorch 原生支持首次进入 preview。此前 TPU 主力框架是 JAX，PyTorch 用户需要 XLA 转译。8t/8i 的 PyTorch 原生支持（preview 阶段）意味着 Google 在向 PyTorch 生态靠拢。vLLM 已集成，这对推理部署是重要信号。

落地状态

全部未出货。 8t 和 8i 均计划 2026 年底出货，目前仅开放"提交意向表"。软件栈（PyTorch 原生支持）在 preview 阶段。

产品	落地状态	数据可信度
TPU 8t	计划 2026 年底出货	厂商规格
TPU 8i	计划 2026 年底出货	厂商规格
Virgo 网络	计划 2026 年底	厂商规格
Boardfly 拓扑	8i 专用，未出货	厂商规格
Ironwood（v7）	2025 已发布，GA 状态不明	厂商规格

@tbl-tpu8-landing 落地状态

与 Tier6 的关联

Boardfly 拓扑：如果 Google 公开 Boardfly 的详细互联参数（每跳带宽/延迟），可作为 Tier6 拓扑建模的新输入
EP 度上限：8i Pod 1,024 chips 的规模暗示推理 EP 度的潜在上限
ICI 代际数据：19.2 Tb/s 可更新到 08-google-ici.md 的代际表（待出货后）

Takeaway

知识点	核心结论
分叉策略	训练 8t + 推理 8i，Google 首次按工作负载拆芯片
8i 设计哲学	宁减算力堆带宽：288 GB HBM + 8,601 GB/s + 384 MB SRAM
Boardfly 拓扑	推理专用，两层高基数结构，跳数 16→7，延迟减半
CAE	片上集合通信加速，延迟降 5×，MoE all-to-all 直接受益
ICI 带宽	19.2 Tb/s（Ironwood 2×），Virgo scale-out 47 Pb/s
落地状态	全部未出货，计划 2026 年底
软件	PyTorch 原生支持 preview，vLLM 已集成

参考资料

Google, Our eighth generation TPUs: two chips for the agentic era, 2026-04-22. https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
Google Cloud, TPU 8t and TPU 8i technical deep dive, 2026-04-23. https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

这场发布的核心变化是什么？​

Boardfly 拓扑是什么？​

ICI 和 Scale-Out 网络怎么演进？​

软件生态进展​

落地状态​

与 Tier6 的关联​

Takeaway​

参考资料​

延伸阅读​