谷歌大会第一天:发布训练芯片TPU8t、推理芯片TPU8i
8t每瓦性能提升124%,8i比上一代提升117%。
新增一个"同步加速器"(CAE),让多颗芯片协同工作时等待时间缩短80%。
推理集群用OCS全互联。之前光路交换机只在训练集群用,现在推理也要用了。
谷歌第八代TPU对比上一代Ironwood:训练性价比提升2.7倍,推理性价比提升1.8倍,能效翻倍。存储访问速度快10倍,片上缓存大3倍,多芯片协作等待时间缩短5倍。芯片间互联带宽翻倍,数据中心骨干网带宽最高翻4倍。全互联通信从16跳降到7跳,减少56%。推理芯片HBM从216GB增到288GB,带宽从6528提到8601GB/s。集群规模从数万颗扩到13.4万颗,最多可连100万颗。
正式可用性计划在本年度晚些时候推出
相关解读:本次发布核心不是算力,是架构分叉,8t追规模,8i追推理延迟。对达子来说,威胁不在TPU本身,在于TPU验证的"训练/推理分叉"路线被行业广泛采用。
发布于 新加坡
