李建秋的世界 25-11-01 09:43
微博认证:微博新知博主

《纽约客》:《走进训练人工智能、耗尽电网的数据中心》第一部分
训练 AI 与榨干电网的数据中心内幕

一座耗电量堪比费城的超级数据中心,正成为美国新型工厂——既创造未来又支撑经济。这种模式能持续多久?

从美国任意城市驱车出发,很快就能遇见拔地而起的巨型白色箱体建筑:平整土地上矗立着监狱般围栏环绕的数据中心,两侧备用发电机列阵。这些人工智能数据中心已成为美国的新型工厂,密集的计算设备吞噬数据并吐出 AI。自 2022 年 ChatGPT 问世以来,它们正以惊人速度扩张。OpenAI 首席执行官萨姆·奥尔特曼近期预言:"我确实认为随着时间的推移,世界大部分地区将被数据中心覆盖。"

美国领先的独立人工智能数据中心运营商 CoreWeave,其创立源于八年前一次偶然尝试。2017 年,纽约一家中型对冲基金的交易员们决定开始挖矿加密货币,以此作为他们梦幻足球联盟的入会费。为了挖矿,他们购置了英伟达公司生产的图形处理器(GPU)——这种原本面向游戏玩家销售的强大微芯片,但英伟达提供的软件能将其变成低成本超级计算机。"从资本回报角度看实在太成功了,于是我们开始扩大规模,"CoreWeave 联合创始人布莱恩·文图罗告诉我,"如果五天就能回本,你肯定想反复操作。"

一年之内,这些交易员就退出了对冲基金行业,购入了数千块 GPU 显卡,在新泽西州文图罗祖父的车库里运行这些设备。2018 年加密货币市场崩盘后,CoreWeave 又从破产的矿工手中收购了更多芯片。不久后,该公司搭建了一个平台,让外部客户也能使用这些 GPU 显卡。到了 2022 年,文图罗偶然接触到了图像生成 AI"Stable Diffusion"。当他向 AI 输入不同场景的文字描述时,系统能生成精确而精美的插图。文图罗回忆当时的想法:"这会让全世界都为之着迷。"

Stable Diffusion 最初就是在与 CoreWeave 配置相似的英伟达设备上完成训练的。文图罗与联合创始人们嗅到了千载难逢的商机。CoreWeave 融资一亿美元后,几乎将所有资金都用于购置英伟达硬件。不久,英伟达首席执行官黄仁勋主动安排了会面。"他花了十分钟嘲笑我来自新泽西,"文图罗回忆道。但最终英伟达收购了该公司部分股权。截至 2022 年中期,CoreWeave 开创了全新商业模式——为 AI 开发者提供装满英伟达设备的算力仓库。

现代数据中心建设浪潮始于九十年代商业互联网兴起之时。这些数据中心承载网站运营、协调邮件收发、处理支付交易并传输音视频流。亚马逊在数据中心建设方面尤为激进——弗吉尼亚州劳登县因密集的数据中心群赢得了"数据中心巷"的称号。即使在 AI 爆发前,数据中心已是盈利利器:某些年份,亚马逊网络服务部门以远低于零售业务的销售额,创造了更高的利润。

但随着英伟达 GPU 的问世和大规模 AI 训练的兴起,数据中心行业发生了翻天覆地的变化。2022 年 11 月 ChatGPT 横空出世并迅速风靡全球。"整个世界都疯狂了,"文图罗说道。微软与 OpenAI 达成合作,为 ChatGPT 提供运行所需的数据中心资源。当微软自身产能无法满足需求时,便转向 CoreWeave 寻求支持。

使用英伟达硬件已成为业界地位的象征——标志着对 AI 领域的真正投入。当与工程师们讨论这些设备时,我不禁想起曾目睹年轻人在寒风中排起长队,只为购买潮牌 Supreme 运动鞋的场景。

今年早些时候,CoreWeave 完成上市。文图罗与其联合创始人们如今已跻身亿万富豪之列。该公司拥有数十万块 GPU,其平台除服务 OpenAI 外,还为 Meta 及其他顶尖实验室提供模型训练支持。

今年夏天,我参观了 CoreWeave 位于拉斯维加斯郊外的一处设施。这座大型仓库建筑被厚重的围栏环绕,间隔有序地分布着监控摄像头。通过旋转栅门时,身穿防弹背心、腰间别着泰瑟枪的安保人员接待了我。上交手机后,我从取用装置拿了两副青柠色的耳塞,随后进入设施内部。

三位 CoreWeave 工程师陪同我参观,这些科技极客就像达尔文雀适应加拉帕戈斯群岛那样,完美融入了超级规模化资本主义的生态。来自企业部门的雅各布·云特身形精瘦、谈吐不凡,头发梳着醒目的偏分。硬件负责人克里斯托弗·康利蓄着胡须、戴着墨镜,是位热情的技术讲解员。身高两米一的前大学篮球队中锋肖恩·安德森,则穿着印有"更多节点"字样的 T 恤。

这些计算节点是浅盘式设备,每个重约七十磅,装有四块水冷显卡和一系列附加装置。十八个这样的托盘层层堆叠,通过线缆连接到控制单元,就构成了英伟达 GB300 计算机架——其高度略超冰箱,造价高达数百万美元。在繁忙年份,单个机架的耗电量就超过百户家庭用电。数十个这样的机架向远处延伸开去。

CoreWeave 将服务器机架安置在白色金属柜中,这样既能有效散热又可降低噪音。康利打开柜门向我展示运行中的机架时,热浪般的气流扑面而来。轰鸣声震耳欲聋,犹如打开扫帚柜却发现里面有台喷气引擎正在运转。我看着闪烁的指示灯和高速旋转的风扇。"耳鸣是我们的职业危害,"康利对着我大喊。

我环顾四周,设施内有数百个相同的机柜。头顶金属步道两侧排列着计算设备的配电装置。这场景让我联想到修道院的僧侣、军营里的士兵、牢房中的囚徒。我不禁好奇:什么人会自愿在这种环境工作?云特后来坦言:"虽然 HR 警告我不能这么问,但我偏爱能承受巨大痛苦的人——比如耐力运动员之类的。"

尽管 CoreWeave 拒绝透露当天使用其技术的客户信息,但扬德暗示我们目睹的训练任务规模并不大。他开始详细讲解机架配置。由于完全听不清他的讲解,我只能像在夜店对话般故作深沉地点头。即便戴着耳塞,我的耳朵已开始嗡鸣,太阳穴也开始抽痛。扬德转向我大喊:"有时候客户会独占整个场地连续运转好几周",他分开的头发在排气风扇的气流中翻飞,"我们管这叫'英雄长跑'"。

CoreWeave 的硬件能够从头至尾完整训练一个人工智能系统。硅谷工作站里的软件开发者们通常会将包含数字参数(称为"权重")的文件连同海量训练数据(可能是文本、图像、医疗记录或任何类型的数据)上传至数据中心。在初始配置阶段,这些权重参数是随机设定的,此时 AI 系统完全不具备任何能力。

接着,AI 系统会接触到部分训练数据片段,并被要求对后续结果进行预测(例如句子中接下来的几个字母)。未经训练的 AI 系统总会在这种预测中出错,但至少能从中学习到错误模式。权重参数必须经过调整以吸收这些新信息。整个数学运算过程十分复杂,尤其依赖名为"矩阵乘法"的特定运算。

“ 美是首要标准:丑陋的数学在世界上没有永久容身之处,”数学家 G·H·哈代在 1940 年写道。但矩阵乘法——我们文明正倾注大量边际资源的领域——其优雅程度堪比用锤子往木板钉钉子。它既不美也不对称:实际上在矩阵乘法中,a 乘以 b 不等于 b 乘以 a。随着矩阵规模扩大,运算需要巨大的计算能力才能解决。最新的大型语言模型可能涉及约一万亿个独立权重,对其进行的数周高强度训练可能消耗数万块 GPU,需要完成十亿亿亿次运算——这已超过宇宙中可观测恒星的数量。

数据中心必须与当地电力公司合作来管理这些训练任务。流经 CoreWeave 微芯片的水流以室温进入,排出时却比热水浴还烫。这些水会在储水箱中冷却后重新循环进入系统。机房内的空气温度、湿度和颗粒物含量也受到严格监控。"冷凝水是我们的天敌,"康利严肃地说道。

所有这些微芯片、电力资源、散热风扇、资金投入、海量数据、水冷泵和电缆——这一切的存在都是为了调整那个小小的权重文件,这份数字文件小到可以装进一个外接硬盘。无数期待都寄托在这个精心调校的人工神经元集合体上。开发它及其同类产品所耗费的资金,堪称人类历史上最大规模的资本投入之一。

发布于 湖北