新智元 26-01-19 09:28
微博认证:新智元官方微博

全球首个吉瓦级训练集群!

马斯克一早激动官宣,专为训下一代Grok打造的「超算巨兽」Colossus 2,今天正式上线。

它可是全球首个,达到吉瓦级的AI训练集群。这是什么概念?

Colossus 2的用电,要比旧金山全市用电峰值还要高。

预计在今年4月,升级到1.5GW,约等于一座大型核电站的输出。

OpenAI、Anthropic在内的很多劲敌还在规划2027年路线图,xAI这边直接把「城市级」算力搞定了。

更夸张的,是他们的执行速度:

Colossus 1:从零到全面上线,只用了122天
Colossus 2:刚突破1GW门槛,目标直接冲着总共2GW去

Epoch AI此前一份报告称,Colossus 2将拥有相当于140万块H100 GPU等效算力

暴力出奇迹,依旧是马斯克坚信的路线——Scaling算力对于快速逼近「奇点」那一刻至关重要。

毕竟,在马斯克的叙事中,未来全球最强的AI玩家中,只有谷歌和xAI。

全球首个GW级超算:55万GPU

xAI展现出的惊人速度,连老黄都为之惊叹。他曾这样高度评价道——

马斯克对工程学的理解是独一无二的。别人需要1年完成的事情,xAI仅用19天就搞定了

外界对于Colossus 1的了解,要比Colossus 2系统得多。

从0开始仅用122天就拔地而起,拥有大约20万张H100/H200,以及约3万张GB200 NVL72。

去年,SemiAnalysis高级分析师一篇文章,曾深度分析了Colossus 2工程设计和所取得的成就。

接下来,就扒一下其背后的细节。

六个月,从0到200MW

Colossus 2项目,于2025年3月7日启动。

它将配备55万块芯片,由GB200和GB300 GPU组成,最终未来扩展到百万GPU。

当时xAI在孟菲斯(Memphis)收购了一个100万平方英尺的仓库,以及两个总计100英亩的相邻地块。

不到六个月的时间,SemiAnalysis统计了现场已部署119台风冷冷水机组,即大约200MW的冷却能力。

这就足以驱动,大约11万张GB200 NVL72。

而且,这个巨大的超算,全部采用的是液冷设计。

马斯克一条推文显示,一些机架在7月份就已经安装好了

令人惊叹的是,xAI只用了6个月就完成了甲骨文、OpenAI花了15个月才完成的工作!

据介绍, Colossus 2造价高达数百亿美元。而xAI现在基本没外部收入,主要靠母公司X输血。

而且,报告里特意提了一嘴——

马斯克跟中东几个「土豪」关系很铁,沙特、阿联酋、卡塔尔的主权基金,都是潜在的金主。