高飞 25-11-13 18:21
微博认证:至顶科技创始人 AI博主

#模型时代# 算力即王权:萨提亚·纳德拉拆解微软的“行星级”的2GW AI工厂

微软CEO萨提亚·纳德拉(Satya Nadella)最近做了一期比较特殊的播客,罕见地向科技分析师Dylan Patel(SemiAnalysis创始人)和播客主持人Dwarkesh Patel展示了微软最新的Fairwater 2数据中心——这是目前全球最强大的AI数据中心。

在位于亚特兰大的算力中心,纳德拉不仅展示了微软如何为AGI做准备,更透露了这家软件巨头如何转型为"资本密集型+知识密集型"的工业公司。

这次对话的背景极其特殊:微软正在建设多个Fairwater数据中心,每个都配备数十万个GB200和GB300芯片,总容量超过2GW。作为对比,即使单个Fairwater建筑的算力也超过了目前存在的任何其他AI数据中心。

纳德拉在参观做了一次自嘲:"我的天,声音真大(噪音)。我经营的是软件公司,欢迎来到软件公司。"

访谈中,他还提到这个AI工厂耗电相当于一座城市。我用最新的GPT5.1算了一下,2GW 按全年算,大概就是一个晋江这样级别的中等城市的全年用电量,或者上海平均用电的十分之一。

---

1、【“欢迎来到(这样的)软件公司”】

“我以为我经营的是一家软件公司。欢迎来到(这样的)软件公司。”

当纳德拉走进轰鸣的Fairwater 2数据中心时,他发出了这样的感慨。这里所展现的物理规模是惊人的:
• 10倍速扩张: 微软云与AI部门EVP斯科特·格思里(Scott Guthrie)透露,“我们试图每18到24个月将训练能力提升10倍。这(Fairwater 2)将是GPT-5训练规模的10倍。”
• 惊人密度: 纳德拉补充道,“这里有大约五百万个网络连接。”
• 行星级互联: Fairwater 4(在建)将通过1 PetaBit的网络与Fairwater 2相连,然后再通过AI WAN连接到密尔沃基的多个其他Fairwater中心。“你可以真正地运行一个跨越所有这些中心的训练任务。”

但这种规模也带来了“可怕之处”。纳德拉指出,模型架构与物理规划之间存在紧密的耦合。“可怕的是,新芯片总会不断出现。比如Vera Rubin Ultra,它的功率密度和冷却要求将截然不同。”

这引出了微软算力投资的第一条核心原则:“你希望的是‘按时间扩展’(scaling in time),而不是‘一次性扩展’(scale once),然后就被套牢。”

2、【5000亿美元的“新工业革命”】

短短三年内,AI市场的资本支出(Capex)规模已经飙升到超大规模厂商(Hyperscalers)明年将投入5000亿美元的程度。

纳德拉将这一转变描述为“结构性的”。“我们现在是一个资本密集型业务和知识密集型业务,”他说,“我们必须用我们的知识来提高资本支出的投资回报率(ROIC)。”

他认为,软件公司在算力竞赛中的真正优势,恰恰在于软件。

“硬件厂商在营销‘摩尔定律’方面做得非常出色,”他说,“但如果你看看我们在财报电话会议上公布的数据,对于同一个GPT系列(模型),我们通过软件改进在‘每美元每瓦特产出的Token数量’上获得的吞吐量提升是巨大的……季度环比、同比,在某些情况下是5倍、10倍,甚至40倍。”

这,就是一家“超大规模厂商”与一个“老式托管商”的根本区别——利用软件知识来驾驭资本密集型的硬件。

3、【“大暂停”之谜:为什么微软选择“不”建设?】

但就在2023年下半年,微软出人意料地踩下了“大暂停”的刹车。他们放弃了许多租赁的数据中心站点,导致其在基础设施规模的预测上被亚马逊、谷歌甚至Oracle超越。

他们为什么这么做?纳德拉首次正面回应了“暂停”背后的战略考量:
拒绝成为“单一托管商”
“我们做出的一个关键决定是,我们需要机群的‘可替换性’(Fungibility)。”纳德拉解释说,这意味着基础设施不能只为训练服务,还必须能灵活支持数据生成、推理等所有AI阶段。
“我们不想只成为一家公司的‘托管商’……那不是一门生意。”他强调,微软的超大规模业务是一个服务于AI工作负载的“长尾业务”(long tail business),而不是仅仅为五家大客户提供裸机服务。
紧跟摩尔定律的“节奏”
“我不想被一代产品的大规模库存所困住。”纳德拉指出,芯片迭代极快,每一代的冷却和供电要求都不同。
他提到了英伟达CEO黄仁勋(Jensen)给他的两个建议:一是“实现‘光速’执行”(Get on the speed-of-light execution),这就是为什么亚特兰大中心从接收到交付工作负载只用了90天;二是按代际扩展,保持平衡。
地缘政治与位置
暂停的另一个关键原因是“位置”。“我们意识到我们想建的东西,在工作负载类型、地理类型和时机上都有些不同。”纳德拉指出,由于数据主权的需求,他必须在阿联酋、印度、欧洲等地建设,而不仅仅是在美国本土。

“你必须考虑的不是未来五年做什么,”他总结道,“而是未来五十年做什么。”

4、【芯片底牌:英伟达的利润与OpenAI的IP】

一个无法回避的问题是:当数据中心75%的TCO(总拥有成本)都流向了英伟达,微软为什么不全力自研芯片(如Maia)来摆脱依赖?

纳德拉的回答揭示了微软在芯片层面的多重布局:
• 高标准的自研: “任何新加速器的最大竞争对手,甚至是上一代的英伟达。”他承认自研芯片的门槛极高,因此微软的策略是将自研芯片(Maia)与自研模型(MAI)紧密耦合,实现垂直优化。
• 与英伟达的“光速”合作: 微软首先要成为英伟达“光速执行的合作伙伴”。
• 真正的王牌——OpenAI的硬件IP: 接着,纳德拉投下了一颗重磅炸弹。他透露,微软与OpenAI的新协议中,包含了对其硬件项目的访问权。

主持人追问:“什么级别的访问权限?”
纳德拉:“全部(All of it)。”
主持人:“所以你们唯一没有的IP是消费级硬件?”
纳德拉:“没错(That’s it)。”

这意味着,微软不仅是英伟达的最大客户,不仅在自研Maia芯片,它还获得了OpenAI在系统设计和芯片创新上的全部IP。“我们将首先帮助他们(OpenAI)将正在构建的技术实例化,然后将其扩展。”

5、【终局:算力、主权与信任】

算力竞赛的终局,战场甚至不在技术本身,而在地缘政治。

访谈最后探讨了“主权AI”的崛起。在一个美中“两极世界”,欧洲、印度都要求建立自己的AI基础设施,微软如何应对?

纳德拉指出,美国科技(占全球4%人口,50%市值)之所以能占据主导地位,核心在于“信任”。“如果这种信任被打破,那对美国来说不是个好日子。”

因此,微软的算力战略必须超越技术,成为一种地缘政治的承诺:
• 全球化建设: “我希望美国政府为美国公司在世界各地的外国直接投资(FDI)揽功。”他认为,在各国建立AI工厂是建立信任的第一步。
• 构建主权云: 微软正在法国和德国建立“主权云”,提供包括机密计算(Confidential Computing)在内的服务,以满足欧洲的数据主权需求。

发布于 新加坡