Google发布第八代TPU

【Google 发布第八代 TPU：博通做训练，联发科做推理】

当地时间周三，Google 在 Google Cloud Next 年度大会上，正式发布了第八代 TPU。

值得一提的是，Google 此次将 TPU 一拆为二，推出专为训练优化的 TPU 8t 与专为推理设计的 TPU 8i，这也是谷歌历史上首次将两类工作负载拆分至独立芯片。

😯 TPU 8t（训练芯片，谷歌 x 博通联合设计）

· 单颗规格：216 GB HBM、6.5 TB/s 内存带宽、128 MB 片上 SRAM、最高 12.6 petaFLOPS FP4 算力；
· 单 Pod 最多互联 9600 块芯片，配备 2 PB 共享 HBM，整体算力达 121 exaflops（FP4），较上代 Ironwood 提升约 3 倍，同等价格下性能提升 2.8 倍；
· 借助 OCS 光路电路交换与 Virgo 网络，单集群可扩展至逾百万块芯片；Managed Lustre 存储系统提供 10 TB/s 聚合吞吐；有效计算时间（goodput）达 97%。

😯 TPU8i（推理芯片，谷歌 x 联发科联合设计）

· 单颗规格：288 GB HBM、8.6 TB/s 内存带宽、384 MB 片上 SRAM（是上代 3 倍）、10.1 petaFLOPS FP4 算力；
· 单 Pod 扩展至 1152 块芯片，提供 11.6 exaflops FP8 算力，同等价格下性能较 Ironwood 提升 80%，每瓦性能提升 117%；
· 采用 Boardfly 网络拓扑，最大芯片间通信跳数从 16 跳压缩至 7 跳；集合加速引擎（CAE）将集合通信延迟降低五倍，对 MoE 架构模型尤为关键。

两款芯片均采用台积电 2nm 制程，搭载谷歌自研 Arm 架构 Axion CPU，彻底告别 x86，并由第四代液冷技术提供散热支持，计划于今年晚些时候在 Google Cloud Platform 正式上线，完整量产目标定于明年底，支持 JAX、PyTorch、Keras 及 vLLM 等主流框架。