谷歌TPU v8架构分叉解析

纯分享，不做为指导买卖建议

谷歌TPU v8解读:

谷歌把AI芯片一刀切成两半，一块专门训练大模型，一块专门跑推理，因为这两件事需要的硬件完全不一样了。

训练芯片（8t）：追求极致规模
一口气连13.4万颗芯片一起训练，最多能扩到100万颗
首次支持4-bit计算（FP4），同样算力下速度翻倍
存储读取速度比上一代快10倍，芯片不用等数据

推理芯片（8i）：追求极致低延迟
芯片上塞了3倍大的缓存，AI对话时不用反复去远处取数据，响应更快
新增一个"同步加速器"（CAE），让多颗芯片协同工作时等待时间缩短80%
最关键的创新：互联拓扑从"邻居串门"改成"全员直连"——MoE模型每个token可能要找任何一个专家，不能再一跳一跳传，改成最多7跳到达任意芯片，比之前快一倍，

也就是，最核心的信息不是算力，是架构分叉——8t用Torus追训练规模，8i用Boardfly+CAE+大SRAM追推理延迟。MoE改变了通信模式，推理集群用OCS全互联。

一个隐藏的关键细节，推理芯片的全员互联用到了光路交换机（OCS）——用光信号直接切换连接，不用电信号转换，延迟极低。之前光路交换机只在训练集群用，现在推理也要用了，市场空间直接翻倍。

谷歌第八代TPU对比上一代Ironwood：训练性价比提升2.7倍，推理性价比提升1.8倍，能效翻倍。存储访问速度快10倍，片上缓存大3倍，多芯片协作等待时间缩短5倍。芯片间互联带宽翻倍，数据中心骨干网带宽最高翻4倍。全互联通信从16跳降到7跳，减少56%。推理芯片HBM从216GB增到288GB，带宽从6528提到8601GB/s。集群规模从数万颗扩到13.4万颗，最多可连100万颗。

对英伟达的影响，如果谷歌对外售卖tpu还是有影响不小的，对英伟达真正的威胁不是TPU本身，是TPU验证的"训练/推理分叉"路线被行业广泛采用。如果推理算力需求3-5倍于训练（行业共识），而推理市场被自研ASIC蚕食，英伟达的可触达市场就缩水了。

1，csp们都开始自研了，达子的稀缺性慢慢稀释。
2，推理asic的崛起，芯原和翱捷（刚成立子公司）的好日子来了。

对应的工艺层面最利好的是天孚，在OCS产业链的位置:
OCS核心部件是MEMS微镜阵列，天孚做微镜的封装和光纤耦合，
FAU光纤阵列是天孚自产的，OCS的每个端口都需要
天孚今天公告"配合客户开发CPO配套FAU、ELS，持续增加产能"——客户就是谷歌/英伟达

天孚通信：1.6T光引擎处于量产状态目前因为个别物料缺料尚未达到预期产量，积极协调供应商努力争取更多交付。

其他ocs 腾景，赛微，光库等都是受益逻辑面

发布于广东