美国银行（BofA）：为何全球大多数数据中心都必须升级或重建？网络延迟——AI训练集群的关键性能瓶颈在AI训练集群中，**网络延迟（network latency）**是决定性能的关键瓶颈。为尽可能减少GPU之间的数据传输延迟，工程师们设计出一种架构：将尽可能多的GPU集中在同一个服务器机架（rack）内，并通

美国银行（BofA）：为何全球大多数数据中心都必须升级或重建？

网络延迟——AI训练集群的关键性能瓶颈

在AI训练集群中，**网络延迟（network latency）**是决定性能的关键瓶颈。
为尽可能减少GPU之间的数据传输延迟，工程师们设计出一种架构：将尽可能多的GPU集中在同一个服务器机架（rack）内，并通过高速内部互联（如NVLink）实现GPU间的高效通信。

然而，这种架构优化带来的直接结果，就是机架功率密度（rack power density）出现爆炸式上升。

功率密度飙升：从10 kW到600 kW的跨越

在2021年，全球数据中心的平均机架功率密度还不足10千瓦（kW）。
如今，一台标准的NVIDIA Hopper（H200）服务器机架功耗已达到约35 kW；而最新一代的Blackwell（B200）机架功率更是高达120 kW。

根据英伟达的产品路线图，其将在2027年下半年推出的Rubin Ultra平台，机架功率密度预计将达到前所未有的600 kW。
与此同时，AMD的MI350与MI400系列以及英特尔的Gaudi产品线也都在沿着同样的高功率演进路径前进。

基础设施滞后：95%的数据中心无法承载AI算力需求

然而，现有的全球数据中心基础设施远远无法跟上这一变化。
根据Uptime Institute于2024年发布的调查，目前全球仅有约5%的数据中心平均机架功率密度超过30 kW。
换句话说，95%的现有数据中心甚至无法支持英伟达上一代的Hopper架构，更无法承载功率更高的Blackwell系统。

因此，AI算力的持续部署将不可避免地依赖于对现有设施的大规模改造，以及新一轮全球范围内的数据中心建设浪潮。#人工智能[超话]#

发布于美国