谷歌TPU架构分叉

谷歌TPU v8核心内容总结

1. 核心底层变革：训练、推理芯片架构彻底分叉
谷歌第八代TPU一分为二，8T专攻大模型训练、8I专攻AI推理，二者硬件设计完全差异化，彻底适配两类AI场景截然不同的算力需求。

- 训练端TPU 8T：主打超大集群规模与极致算力效率，最高可扩容至百万颗芯片集群，首次支持FP4 4-bit计算，存储读取速度较上代提升10倍，训练综合性价比提升2.7倍。
- 推理端TPU 8I：主打超低响应延迟，片上缓存扩容至上代3倍，新增CAE同步加速器，大幅缩短多芯片协同等待耗时；互联拓扑全面升级为全员直连，芯片间数据传输跳数从16跳降至7跳，传输速度翻倍，推理综合性价比提升1.8倍，配套HBM容量、带宽同步大幅升级。

2. 行业关键创新：光路交换机OCS下沉推理赛道
此前仅训练集群使用的光路交换机OCS，首次落地推理场景，依托光信号直连切换、无需电信号转换的超低延迟优势，完美适配MoE模型随机跨芯片调取专家参数的通信需求，OCS市场空间直接翻倍。
3. 对全球AI芯片格局的深层影响
对英伟达的核心威胁并非TPU单品，而是训推架构分叉的技术路线将被全行业普及。行业共识推理算力需求远超训练算力，若推理市场持续被自研ASIC芯片蚕食，英伟达可覆盖市场将持续缩水；同时全球云厂商CSP自研芯片浪潮提速，高端通用AI芯片稀缺性逐步稀释。
4. 产业链受益标的逻辑

- 推理ASIC赛道：芯原股份、翱捷科技等相关厂商迎来成长红利
- OCS光通信产业链：核心受益天孚通信，其自产FAU光纤阵列、MEMS微镜封装与光纤耦合为OCS刚需核心部件，已配合谷歌、英伟达等头部客户开发CPO配套产品，1.6T光引擎已实现量产；同步受益腾景科技、赛微电子、光库科技等同赛道厂商。

发布于福建