全吹了一遍
【开源通信】一文看懂谷歌新TPU,光模块、OCS、液冷核心受益
一、TPU 8T:大规模训练专用芯片
(1)Scale up:
拓扑架构:沿用升级版3D Torus环形拓扑,优化芯片间直连链路;
规模上限:单SuperPod超节点从9216颗芯片扩容至9600颗,共享内存池达2PB;
带宽升级:芯片间ICI互联带宽提升2倍。
(2)Scale out:
网络架构:全新Virgo两层无阻塞扁平化网络,替代前代拓扑;
带宽升级:单芯片横向扩展带宽从100Gbps跃升至400Gbps,整体数据中心网络带宽提升4倍;
规模上限:单数据中心可连接13.4万颗TPU,跨多站点可扩展至百万级TPU集群。
(3)TPU 8T 光模块配比
Scale up:配比保持不变,沿用前代光模块互联逻辑,依托3D Torus高带宽直连,无需额外增加域内光模块;
Scale out:配比直接翻倍(单芯片横向带宽从100G→400G,带宽提升4倍,需配套更高规格光模块(800G→1.6T迭代)(Virgo扁平化网络需更多光链路支撑无阻塞互联,光模块数量随带宽、集群规模同步扩容);
(4)TPU 8T 液冷升级:全液冷,全浸没式+CDU集中液冷架构升级
二、TPU 8I:低延迟推理专用芯片
(1)Scale up
拓扑架构:全新分层Boardfly专属拓扑(推理定制化),4颗TPU组成1个BB单元,8个BB通过铜线组成Group,36个Group经OCS互联;
规模上限:单SuperPod超节点从256颗芯片跃升至1152颗,FP8算力提升8.67倍、HBM容量提升5.74倍;
网络优化:网络直径从16跳降至7跳,大幅降低MoE模型专家路由、推理数据转发时延,适配低延迟推理核心需求。
(2)Scale out
网络架构:基于Boardfly拓扑延伸,搭配OCS光路交换做动态链路重构
(3)TPU 8I 光模块配比
Scale up:配比变为1:1.25;
Scale out:OCS用量显著增加。
(4)液冷架构变化:全液冷,分区浸没式+模块化液冷架构+CDU分区设计,按Boardfly Group做独立液冷分区。
相关公司:
光模块&光芯片:中际旭创、新易盛、源杰科技、长芯博创;
OCS:腾景科技、炬光科技、光库科技、赛微电子;
液冷:英维克。
发布于 上海
