谷歌发布TPU 8i和8t芯片

转：谷歌这次最重要的，不是又发了两颗更快的芯片，而是它公开承认：AI基础设施已经进入“分工时代”。 8t负责训练，8i负责推理/推断/agent 工作流。这意味着“一个通用加速器同时吃下所有AI负载”的思路正在失效。你上传的两篇资料已经抓住了这个核心。

1）两款 TPU 的真正竞争力在哪

TPU 8t 本质上是一台“训练超算芯片”。Google 官方给出的重点不是单芯片跑分，而是系统级吞吐：单个 superpod 可扩到 9,600 颗 TPU，提供 121 exaflops 计算与约 2PB 共享高带宽内存；它还引入了 SparseCore、原生 FP4、Virgo 网络、TPUDirect RDMA 和 TPUDirect Storage，目标非常明确：把训练里的三大瓶颈——稀疏 embedding、数据搬运、集群网络——一起压下去。官方口径是，相比上一代 Ironwood，8t 训练场景可实现最高 2.7x 的 performance-per-dollar。

TPU 8i 才是这次更有战略意义的产品。它不是“缩水版训练卡”，而是把推理当成完全不同的问题来做：更大的片上 SRAM、更多 HBM、更低的 collectives 延迟、更短的网络跳数。官方规格里，8i 有 288GB HBM、384MB 片上 SRAM、8.601TB/s HBM 带宽、CAE（Collectives Acceleration Engine），并用 Boardfly 拓扑把 1024 芯片规模下的最大 hop 数从 torus 的 16 跳压到 7 跳，网络直径降 56%，通信密集负载延迟最高改善 50%。Google 对它的定义非常直白：这是给高并发推理、MoE、reasoning 和 agent workflows 准备的。

真正值得你注意的是资源配比。按官方给的数字算，8i 的峰值 FP4 算力其实低于 8t（10.1 vs 12.6 PFLOPs），但 HBM 容量更高（288 vs 216GB），HBM 带宽也更高（8.601 vs 6.528TB/s），片上 SRAM 更是 3 倍（384 vs 128MB）。也就是说，Google 在 8i 上明显不是在追“更高纯算力”，而是在押注：未来推理的瓶颈是 memory hierarchy + communication，而不是单纯 matrix math。这是非常强的产业信号。

发布于中国香港