单个GPU的性能固然重要，但GPU之间互联（带宽、延迟、功耗）同样重要（如果不是更重要的话）。分享一下GPU互联技术的学习心得，欢迎指正。传统的铜缆和电连接已难以满足数据中心和大规模GPU 集群机架间长距离高带宽的互连需求。为了解决这一问题，引入了光纤连接。目前，大多数用于电-光信号转换

单个GPU的性能固然重要，但GPU之间互联（带宽、延迟、功耗）同样重要（如果不是更重要的话）。分享一下GPU互联技术的学习心得，欢迎指正。

传统的铜缆和电连接已难以满足数据中心和大规模GPU 集群机架间长距离高带宽的互连需求。为了解决这一问题，引入了光纤连接。

目前，大多数用于电-光信号转换的光模块插在主板边缘，数据信号需要经过较长的电传输路径后才会被转换为光信号。

这会带来明显的电损耗，并消耗大量功率。随着AI和GPU部署规模的不断扩大，这种可插拔光模块的功耗在大规模GPU集群中已经难以接受。

解决方案是CPO（Co-Packaged Optics） — 硅光共封装。CPO将硅光芯片（光模块）与交换芯片或计算芯片共同封装在一起，通过更短的电传输完成电光耦合。CPO不仅能大幅降低功耗，还能减少组件故障率，简化大规模光互连的实现。

当前，CPO把光学器件和交换芯片（Switch ASIC）做在同一个封装里，主要解决交换机与外部网络之间的电-光转换瓶颈。

未来共封装可以拓展到机架内，把光处理器件直接集成到计算芯片（CPU/GPU/AI加速器）封装中，让计算单元“自带光口”。

这样，信号可以在计算芯片旁就完成电-光转换，减少能耗和延迟，提供更高带宽。不仅可用于机架之间，还可能用于GPU或GPU与内存之间的大规模光互连。目前还在探索阶段。

#GPU互联##人工智能##光连接##硅光共同封装# http://t.cn/R2WxsCs

发布于美国