美国银行(BofA):为何全球大多数数据中心都必须升级或重建?
网络延迟——AI训练集群的关键性能瓶颈
在AI训练集群中,**网络延迟(network latency)**是决定性能的关键瓶颈。
为尽可能减少GPU之间的数据传输延迟,工程师们设计出一种架构:将尽可能多的GPU集中在同一个服务器机架(rack)内,并通过高速内部互联(如NVLink)实现GPU间的高效通信。
然而,这种架构优化带来的直接结果,就是机架功率密度(rack power density)出现爆炸式上升。
功率密度飙升:从10 kW到600 kW的跨越
在2021年,全球数据中心的平均机架功率密度还不足10千瓦(kW)。
如今,一台标准的NVIDIA Hopper(H200)服务器机架功耗已达到约35 kW;而最新一代的Blackwell(B200)机架功率更是高达120 kW。
根据英伟达的产品路线图,其将在2027年下半年推出的Rubin Ultra平台,机架功率密度预计将达到前所未有的600 kW。
与此同时,AMD的MI350与MI400系列以及英特尔的Gaudi产品线也都在沿着同样的高功率演进路径前进。
基础设施滞后:95%的数据中心无法承载AI算力需求
然而,现有的全球数据中心基础设施远远无法跟上这一变化。
根据Uptime Institute于2024年发布的调查,目前全球仅有约5%的数据中心平均机架功率密度超过30 kW。
换句话说,95%的现有数据中心甚至无法支持英伟达上一代的Hopper架构,更无法承载功率更高的Blackwell系统。
因此,AI算力的持续部署将不可避免地依赖于对现有设施的大规模改造,以及新一轮全球范围内的数据中心建设浪潮。#人工智能[超话]#
发布于 美国
