谷歌新TPU架构解析

谷歌这个新TPU架构，再次提升了互联需求

【国泰海通通信】800G/1.6T端口增量涌现，OCS数量大幅增加0423

事件回顾：谷歌在4月22日晚发布TPU 8t和TPU8i两款芯片，关于网络连接部分，我们解析如下：

#TPU 8t：定位为训练芯片
【网络组成】Virgo Network+Apollo Network+3D Torus。
玫瑰3D Torus针对TPU 8t芯片进行常规OCS组网
玫瑰Virgo Network可针对多达13万卡进行两层交换组网，使用高端口数（high -radix）交换机进行两层组网（预计需要使用512*400G或等效）
玫瑰Apollo Network：进行更大维度的汇聚层互联，例如大集群由8个13万卡的台区，然后顶层使用OCS进行连接，可以轻松扩展至百万卡集群。

【Scale Up】9600卡内部沿用3D Torus+OCS架构卡。单芯片ICI带宽达到了9.6T（6*1.6T），代表1.6T端口开始广泛使用。1.6T光模块：卡比例为1:1.5，【OCS台数】比例与此前接近，9000卡大概需要48台320*320的OCS。
【Scale Out】单卡scale out带宽达到400G，考虑顶层采用OCS，则换算成800G光模块：卡比例为1:2.5。考虑13万卡集群将产生13w 400G FR4端口，对应13万根光纤（加环形器），对应320*320端口OCS交换机=200台。

#TPU 8i：定位为推理芯片
【Boardfly网络优势】传统的3D Torus只能对相邻的6个节点进行直接通信，最大跳数遵循：假设集群为I行J列H高，则最大跳数为1/2(I+J+K)，而如果使用boardfly架构下，1024卡规模下仅需要7跳（其中一跳是光条），而3D Torus架构需要（8,8,16）=16跳。其中，OCS直接连接任意机柜（Rack）。

【Scale Up】单卡拥有9.6T ICI带宽，一个板上有4张卡，共有16条外部link，其中11条进行内部互联（copper），另外5条连接到OCS（光）。一个机柜共有8张板，因此共有40条外部link（光）。
【光模块比例】36个机柜*40 外部link共产生1440个端口，对应1152张卡， 1.6T光模块比例为1.25:1。
【OCS台数】考虑每个link大概率是1.6T（2*FR4），产生4根光纤（2收2发），同时配备环形器后每个link产生2根光纤；因此一共有2880个光纤（对应同样数量的OCS端口）。假设使用320*320端口OCS交换机，则1152卡需要5台OCS交换机。
【具体连接】为实现最大跳数7条，5台OCS每台需直接连接36个机柜，恰好每个PCB板（4卡）有5个link，每个PCB板各自有1个link（2根光纤）连接到每个OCS上，一共有36*8=288个PCB板，因此每个320*320的OCS实际占用端口数为288*288（576个端口）。

玫瑰总结：
【OCS】应用场景更加广泛，两种卡OCS比例相近，假如27年有600-700w TPU，则对应OCS数量将达到Scale up 3w+Scale out 200*55=4万台；
【光模块】假设训练占比200w，推理占比500w，则TPU产生的1.6T光模块数量为625w+300w=925万；800G数量为600w*2.5=1500w。

发布于浙江