庚白星君 26-04-23 01:25
微博认证:雪球用户 财经知识分享官 财经观察官 财经博主 微博原创视频博主

谷歌新一代TPU

谷歌Cloud Next '26大会发布第八代TPU平台,把AI芯片一刀切成两半,一块专门训练大模型,一块专门跑推理,因为这两件事需要的硬件完全不一样了。训练芯片(8t):追求极致规模一口气连13.4万颗芯片一起训练,最多能扩到100万颗首次支持4-bit计算(FP4),同样算力下速度翻倍存储读取速度比上一代快10倍,芯片不用等数据
推理芯片(8i):追求极致低延迟芯片上塞了3倍大的缓存,AI对话时不用反复去远处取数据,响应更快新增一个"同步加速器"(CAE),让多颗芯片协同工作时等待时间缩短80%
最关键的创新:互联拓扑从"邻居串门"改成"全员直连"——MoE模型每个token可能要找任何一个专家,不能再一跳一跳传,改成最多7跳到达任意芯片,比之前快一倍。也就是,最核心的信息不是算力,是架构分叉——8t用Torus追训练规模,8i用Boardfly+CAE+大SRAM追推理延迟。MoE改变了通信模式,推理集群用OCS全互联。
谷歌TPU有两个超级用户:谷歌自身和Scale AI。无论是谷歌的Gemini还是Anthropic的Claude,近期发展态势都非常好,未来它们的算力基本可由TPU支撑。近期,Anthropic年化收入超预期达到300亿美元(2025年底为90亿美元),并与谷歌、博通锁定了自2027年起上线的TPU供应,规模至少达百万颗卡级别,同时敲定了到2031年的长期供应保障。
之前提示的“谷歌可能大幅上调2026-2028年TPU数量”正在兑现。根据产业链数据判断,2026-2028年TPU总量预计将上调至约5000万颗,其中2026年约430万颗,2027年从650万颗上调至1000万颗,2028年上调至3500多万颗。这将对产业链形成指数级拉动。谷歌TPU数量上修将直接利好六大方向:- 光模块:与TPU配比约为1:2.5-1:3。1000万颗TPU对应2000-3000万个光模块,其中以1.6T光模块为主。- NPO:在TOR交换机中与TPU配比约为1:1。1000万颗TPU对应约1000万个NPO。- 液冷:与TPU数量完全成正比。谷歌机柜以64个TPU为单位,V8以上芯片全液冷配置,价值量大幅提升。1000万颗TPU对应约16万个机柜,按每个机柜60-70万元计算,仅谷歌的液冷市场空间就超1000亿元。谷歌液冷量产已进入最后验收阶段,通过后将进入放量出货期。- OCS:预计2026年谷歌OCS需求约1.7-1.8万台。1000万颗TPU(2027年)对应超5万台OCS,3500万颗(2028年)对应约15万台OCS。- MPO及AOC:与光模块需求正相关,配比约1:2。- 服务器电源:机柜数量增长带动电源需求,且需要高功率电源。
谷歌非常重视OCS,其未来网络架构将主要采用 “NPO + OCS” 的方案。英伟达也将OCS定位为未来AI工厂网络的核心架构方案,认为其在Scale-out和Scale-up场景均有明确应用价值。OCS并非实验室概念,而是解决当前算力网络痛点的刚需方案。传统电交换机存在时延、功耗高、带宽升级受电芯片制约等瓶颈。OCS通过光域端到端直通,实现了超低时延、低功耗和带宽无瓶颈三大优势。
目前,行业具备自研OCS能力的厂商主要有四家:谷歌(由Celestica代工)、Coherent、Lumentum和华为。主流技术方案有三种:- MEMS方案:谷歌和Lumentum主推,商用节奏最快,芯片贵但外部光学相对便宜。- 液晶方案:Coherent主推,芯片相对便宜但外部光学复杂且贵,装调难度大。- 光波导方案:采用全固态硅光芯片,芯片成本占比最高(约70%),但长期规模化生产成本较低。
OCS当前的应用场景非常明确,主要用于Spine层和DCI互联,在Leaf和TOR层仍以电交换机为主。国内运营商在“城域毫秒运算”专项行动推动下,也是OCS重要的下游应用分支。
当前OCS更适合长稳、大流量的点对点传输,常采用 “OCS + 电分组交换(EPS)”的混合组网模式,以兼顾各自优势。OCS的瓶颈正从设计能力转向量产能力,其中耦合工艺是最大难点。
2026年是OCS从技术验证走向规模化商用的元年。未来3-5年,OCS有望成为算力网络和AI智算中心的细分标配设备,并在数通和电信两侧打开市场空间。关注腾景科技、炬光科技、光库科技、德科立等标的。

发布于 上海