转:谷歌这次最重要的,不是又发了两颗更快的芯片,而是它公开承认:AI基础设施已经进入“分工时代”。 8t负责训练,8i负责推理/推断/agent 工作流。这意味着“一个通用加速器同时吃下所有AI负载”的思路正在失效。你上传的两篇资料已经抓住了这个核心。
1)两款 TPU 的真正竞争力在哪
TPU 8t 本质上是一台“训练超算芯片”。Google 官方给出的重点不是单芯片跑分,而是系统级吞吐:单个 superpod 可扩到 9,600 颗 TPU,提供 121 exaflops 计算与约 2PB 共享高带宽内存;它还引入了 SparseCore、原生 FP4、Virgo 网络、TPUDirect RDMA 和 TPUDirect Storage,目标非常明确:把训练里的三大瓶颈——稀疏 embedding、数据搬运、集群网络——一起压下去。官方口径是,相比上一代 Ironwood,8t 训练场景可实现最高 2.7x 的 performance-per-dollar。
TPU 8i 才是这次更有战略意义的产品。它不是“缩水版训练卡”,而是把推理当成完全不同的问题来做:更大的片上 SRAM、更多 HBM、更低的 collectives 延迟、更短的网络跳数。官方规格里,8i 有 288GB HBM、384MB 片上 SRAM、8.601TB/s HBM 带宽、CAE(Collectives Acceleration Engine),并用 Boardfly 拓扑把 1024 芯片规模下的最大 hop 数从 torus 的 16 跳压到 7 跳,网络直径降 56%,通信密集负载延迟最高改善 50%。Google 对它的定义非常直白:这是给高并发推理、MoE、reasoning 和 agent workflows 准备的。
真正值得你注意的是资源配比。按官方给的数字算,8i 的峰值 FP4 算力其实低于 8t(10.1 vs 12.6 PFLOPs),但 HBM 容量更高(288 vs 216GB),HBM 带宽也更高(8.601 vs 6.528TB/s),片上 SRAM 更是 3 倍(384 vs 128MB)。也就是说,Google 在 8i 上明显不是在追“更高纯算力”,而是在押注:未来推理的瓶颈是 memory hierarchy + communication,而不是单纯 matrix math。 这是非常强的产业信号。
发布于 中国香港
