纯分享,不做为指导买卖建议
谷歌TPU v8解读:
谷歌把AI芯片一刀切成两半,一块专门训练大模型,一块专门跑推理,因为这两件事需要的硬件完全不一样了。
训练芯片(8t):追求极致规模
一口气连13.4万颗芯片一起训练,最多能扩到100万颗
首次支持4-bit计算(FP4),同样算力下速度翻倍
存储读取速度比上一代快10倍,芯片不用等数据
推理芯片(8i):追求极致低延迟
芯片上塞了3倍大的缓存,AI对话时不用反复去远处取数据,响应更快
新增一个"同步加速器"(CAE),让多颗芯片协同工作时等待时间缩短80%
最关键的创新:互联拓扑从"邻居串门"改成"全员直连"——MoE模型每个token可能要找任何一个专家,不能再一跳一跳传,改成最多7跳到达任意芯片,比之前快一倍,
也就是,最核心的信息不是算力,是架构分叉——8t用Torus追训练规模,8i用Boardfly+CAE+大SRAM追推理延迟。MoE改变了通信模式,推理集群用OCS全互联。
一个隐藏的关键细节,推理芯片的全员互联用到了光路交换机(OCS)——用光信号直接切换连接,不用电信号转换,延迟极低。之前光路交换机只在训练集群用,现在推理也要用了,市场空间直接翻倍。
谷歌第八代TPU对比上一代Ironwood:训练性价比提升2.7倍,推理性价比提升1.8倍,能效翻倍。存储访问速度快10倍,片上缓存大3倍,多芯片协作等待时间缩短5倍。芯片间互联带宽翻倍,数据中心骨干网带宽最高翻4倍。全互联通信从16跳降到7跳,减少56%。推理芯片HBM从216GB增到288GB,带宽从6528提到8601GB/s。集群规模从数万颗扩到13.4万颗,最多可连100万颗。
对英伟达的影响,如果谷歌对外售卖tpu还是有影响不小的,对英伟达真正的威胁不是TPU本身,是TPU验证的"训练/推理分叉"路线被行业广泛采用。如果推理算力需求3-5倍于训练(行业共识),而推理市场被自研ASIC蚕食,英伟达的可触达市场就缩水了。
1,csp们都开始自研了,达子的稀缺性慢慢稀释。
2,推理asic的崛起,芯原和翱捷(刚成立子公司)的好日子来了。
对应的工艺层面最利好的是天孚,在OCS产业链的位置:
OCS核心部件是MEMS微镜阵列,天孚做微镜的封装和光纤耦合,
FAU光纤阵列是天孚自产的,OCS的每个端口都需要
天孚今天公告"配合客户开发CPO配套FAU、ELS,持续增加产能"——客户就是谷歌/英伟达
天孚通信:1.6T光引擎处于量产状态目前因为个别物料缺料尚未达到预期产量,积极协调供应商努力争取更多交付。
其他ocs 腾景,赛微,光库等都是受益逻辑面
发布于 广东
