硅谷陈源博士 26-04-14 05:59
微博认证:美国佐治亚理工学院计算机科学博士,NVIDIA(英伟达)主任工程师

研究了一下GPU数据中心成本,非常粗略地估算了一下建造和运行1吉瓦GPU数据中心5年总成本(TCO) 的各项开支占比(图1)。

1. 绝对重资产:GPU算计算中心是一个极高投入的基建项目。5年周期,资本支出(CapEx)占总成本(TCO)的 78%。

2. 计算设备(GPU服务器)是最大成本: GPU服务器相关成本约占总成本的45%。数据中心的经济性高度依赖GPU芯片的迭代周期和实际利用率。

3. (反直觉)电费成本高但不致命: 在大规模、能效较优的数据中心,电费只占总成本的15%。提升硬件利用率带来的收益,远高于单纯节能带来的成本节约。所以,必须把GPU用到极致。

4. 电力与散热成为关键基础设施: 电力与散热等基础设施(包括配电、冷却及相关设施)占总成本的 20%。近期看到报道,超高压供电及电力转换设备供给,已成为新建数据中心的瓶颈。

5. 网络与存储支撑很关键:为了解决大规模集群的“通信墙”问题,高速网络投入占总成本10%。存储与日常运维等其他支出合计占比10%,高性能存储的占比还在逐步上升。

总之, 建设超大规模GPU数据中心是一场极其昂贵的重资产游戏。电费占比(约15%)并没有想象中那么高,真正决定经济性的,是硬件折旧速度与算力利用率。

参考:

1. AI Cloud TCO Model – SemiAnalysis http://t.cn/AXMYxnBJ

2. The cost of compute power: A $7 trillion race | McKinsey http://t.cn/AXMYxnBi

3. Gartner Forecasts Worldwide IT Spending to Grow 10.8% in 2026, Totaling $6.15 Trillion http://t.cn/AXMYxnB6

4. Cost to Build a Modern Data Center in 2026 Explained http://t.cn/AXMYxnBx

#GPU数据中心成本分析##人工智能电力##人工智能基础设施#

发布于 美国