谷歌这个新TPU架构,再次提升了互联需求
【国泰海通通信】800G/1.6T端口增量涌现,OCS数量大幅增加0423
事件回顾:谷歌在4月22日晚发布TPU 8t和TPU8i两款芯片,关于网络连接部分,我们解析如下:
#TPU 8t:定位为训练芯片
【网络组成】Virgo Network+Apollo Network+3D Torus。
玫瑰3D Torus针对TPU 8t芯片进行常规OCS组网
玫瑰Virgo Network可针对多达13万卡进行两层交换组网,使用高端口数(high -radix)交换机进行两层组网(预计需要使用512*400G或等效)
玫瑰Apollo Network:进行更大维度的汇聚层互联,例如大集群由8个13万卡的台区,然后顶层使用OCS进行连接,可以轻松扩展至百万卡集群。
【Scale Up】9600卡内部沿用3D Torus+OCS架构卡。单芯片ICI带宽达到了9.6T(6*1.6T),代表1.6T端口开始广泛使用。1.6T光模块:卡比例为1:1.5,【OCS台数】比例与此前接近,9000卡大概需要48台320*320的OCS。
【Scale Out】单卡scale out带宽达到400G,考虑顶层采用OCS,则换算成800G光模块:卡比例为1:2.5。考虑13万卡集群将产生13w 400G FR4端口,对应13万根光纤(加环形器),对应320*320端口OCS交换机=200台。
#TPU 8i:定位为推理芯片
【Boardfly网络优势】传统的3D Torus只能对相邻的6个节点进行直接通信,最大跳数遵循:假设集群为I行J列H高,则最大跳数为1/2(I+J+K),而如果使用boardfly架构下,1024卡规模下仅需要7跳(其中一跳是光条),而3D Torus架构需要(8,8,16)=16跳。其中,OCS直接连接任意机柜(Rack)。
【Scale Up】单卡拥有9.6T ICI带宽,一个板上有4张卡,共有16条外部link,其中11条进行内部互联(copper),另外5条连接到OCS(光)。一个机柜共有8张板,因此共有40条外部link(光)。
【光模块比例】36个机柜*40 外部link共产生1440个端口,对应1152张卡, 1.6T光模块比例为1.25:1。
【OCS台数】考虑每个link大概率是1.6T(2*FR4),产生4根光纤(2收2发),同时配备环形器后每个link产生2根光纤;因此一共有2880个光纤(对应同样数量的OCS端口)。假设使用320*320端口OCS交换机,则1152卡需要5台OCS交换机。
【具体连接】为实现最大跳数7条,5台OCS每台需直接连接36个机柜,恰好每个PCB板(4卡)有5个link,每个PCB板各自有1个link(2根光纤)连接到每个OCS上,一共有36*8=288个PCB板,因此每个320*320的OCS实际占用端口数为288*288(576个端口)。
玫瑰总结:
【OCS】应用场景更加广泛,两种卡OCS比例相近,假如27年有600-700w TPU,则对应OCS数量将达到Scale up 3w+Scale out 200*55=4万台;
【光模块】假设训练占比200w,推理占比500w,则TPU产生的1.6T光模块数量为625w+300w=925万;800G数量为600w*2.5=1500w。
发布于 浙江
