硅谷陈源博士 25-08-26 08:31
微博认证:美国佐治亚理工学院计算机科学博士,NVIDIA(英伟达)主任工程师

单个GPU的性能固然重要,但GPU之间互联(带宽、延迟、功耗)同样重要 (如果不是更重要的话)。分享一下GPU互联技术的学习心得,欢迎指正。

传统的铜缆和电连接已难以满足数据中心和大规模GPU 集群机架间长距离高带宽的互连需求。为了解决这一问题,引入了光纤连接。

目前,大多数用于电-光信号转换的光模块插在主板边缘,数据信号需要经过较长的电传输路径后才会被转换为光信号。

这会带来明显的电损耗,并消耗大量功率。随着AI和GPU部署规模的不断扩大,这种可插拔光模块的功耗在大规模GPU集群中已经难以接受。

解决方案是CPO(Co-Packaged Optics) — 硅光共封装。CPO将硅光芯片(光模块)与交换芯片或计算芯片共同封装在一起,通过更短的电传输完成电光耦合。CPO不仅能大幅降低功耗,还能减少组件故障率,简化大规模光互连的实现。

当前,CPO把光学器件和交换芯片(Switch ASIC) 做在同一个封装里,主要解决交换机与外部网络之间的电-光转换瓶颈。

未来共封装可以拓展到机架内,把光处理器件直接集成到计算芯片(CPU/GPU/AI加速器) 封装中,让计算单元“自带光口”。

这样,信号可以在计算芯片旁就完成电-光转换,减少能耗和延迟,提供更高带宽。不仅可用于机架之间,还可能用于GPU或GPU与内存之间的大规模光互连。目前还在探索阶段。

#GPU互联##人工智能##光连接##硅光共同封装# http://t.cn/R2WxsCs

发布于 美国