谷歌发布第八代TPU平台

谷歌新一代TPU

谷歌Cloud Next '26大会发布第八代TPU平台，把AI芯片一刀切成两半，一块专门训练大模型，一块专门跑推理，因为这两件事需要的硬件完全不一样了。训练芯片（8t）：追求极致规模一口气连13.4万颗芯片一起训练，最多能扩到100万颗首次支持4-bit计算（FP4），同样算力下速度翻倍存储读取速度比上一代快10倍，芯片不用等数据
推理芯片（8i）：追求极致低延迟芯片上塞了3倍大的缓存，AI对话时不用反复去远处取数据，响应更快新增一个"同步加速器"（CAE），让多颗芯片协同工作时等待时间缩短80%
最关键的创新：互联拓扑从"邻居串门"改成"全员直连"——MoE模型每个token可能要找任何一个专家，不能再一跳一跳传，改成最多7跳到达任意芯片，比之前快一倍。也就是，最核心的信息不是算力，是架构分叉——8t用Torus追训练规模，8i用Boardfly+CAE+大SRAM追推理延迟。MoE改变了通信模式，推理集群用OCS全互联。
谷歌TPU有两个超级用户：谷歌自身和Scale AI。无论是谷歌的Gemini还是Anthropic的Claude，近期发展态势都非常好，未来它们的算力基本可由TPU支撑。近期，Anthropic年化收入超预期达到300亿美元（2025年底为90亿美元），并与谷歌、博通锁定了自2027年起上线的TPU供应，规模至少达百万颗卡级别，同时敲定了到2031年的长期供应保障。
之前提示的“谷歌可能大幅上调2026-2028年TPU数量”正在兑现。根据产业链数据判断，2026-2028年TPU总量预计将上调至约5000万颗，其中2026年约430万颗，2027年从650万颗上调至1000万颗，2028年上调至3500多万颗。这将对产业链形成指数级拉动。谷歌TPU数量上修将直接利好六大方向：- 光模块：与TPU配比约为1:2.5-1:3。1000万颗TPU对应2000-3000万个光模块，其中以1.6T光模块为主。- NPO：在TOR交换机中与TPU配比约为1:1。1000万颗TPU对应约1000万个NPO。- 液冷：与TPU数量完全成正比。谷歌机柜以64个TPU为单位，V8以上芯片全液冷配置，价值量大幅提升。1000万颗TPU对应约16万个机柜，按每个机柜60-70万元计算，仅谷歌的液冷市场空间就超1000亿元。谷歌液冷量产已进入最后验收阶段，通过后将进入放量出货期。- OCS：预计2026年谷歌OCS需求约1.7-1.8万台。1000万颗TPU（2027年）对应超5万台OCS，3500万颗（2028年）对应约15万台OCS。- MPO及AOC：与光模块需求正相关，配比约1:2。- 服务器电源：机柜数量增长带动电源需求，且需要高功率电源。
谷歌非常重视OCS，其未来网络架构将主要采用 “NPO + OCS” 的方案。英伟达也将OCS定位为未来AI工厂网络的核心架构方案，认为其在Scale-out和Scale-up场景均有明确应用价值。OCS并非实验室概念，而是解决当前算力网络痛点的刚需方案。传统电交换机存在时延、功耗高、带宽升级受电芯片制约等瓶颈。OCS通过光域端到端直通，实现了超低时延、低功耗和带宽无瓶颈三大优势。
目前，行业具备自研OCS能力的厂商主要有四家：谷歌（由Celestica代工）、Coherent、Lumentum和华为。主流技术方案有三种：- MEMS方案：谷歌和Lumentum主推，商用节奏最快，芯片贵但外部光学相对便宜。- 液晶方案：Coherent主推，芯片相对便宜但外部光学复杂且贵，装调难度大。- 光波导方案：采用全固态硅光芯片，芯片成本占比最高（约70%），但长期规模化生产成本较低。
OCS当前的应用场景非常明确，主要用于Spine层和DCI互联，在Leaf和TOR层仍以电交换机为主。国内运营商在“城域毫秒运算”专项行动推动下，也是OCS重要的下游应用分支。
当前OCS更适合长稳、大流量的点对点传输，常采用 “OCS + 电分组交换（EPS）”的混合组网模式，以兼顾各自优势。OCS的瓶颈正从设计能力转向量产能力，其中耦合工艺是最大难点。
2026年是OCS从技术验证走向规模化商用的元年。未来3-5年，OCS有望成为算力网络和AI智算中心的细分标配设备，并在数通和电信两侧打开市场空间。关注腾景科技、炬光科技、光库科技、德科立等标的。

发布于上海