全球首个吉瓦级训练集群!
马斯克一早激动官宣,专为训下一代Grok打造的「超算巨兽」Colossus 2,今天正式上线。
它可是全球首个,达到吉瓦级的AI训练集群。这是什么概念?
Colossus 2的用电,要比旧金山全市用电峰值还要高。
预计在今年4月,升级到1.5GW,约等于一座大型核电站的输出。
OpenAI、Anthropic在内的很多劲敌还在规划2027年路线图,xAI这边直接把「城市级」算力搞定了。
更夸张的,是他们的执行速度:
Colossus 1:从零到全面上线,只用了122天
Colossus 2:刚突破1GW门槛,目标直接冲着总共2GW去
Epoch AI此前一份报告称,Colossus 2将拥有相当于140万块H100 GPU等效算力
暴力出奇迹,依旧是马斯克坚信的路线——Scaling算力对于快速逼近「奇点」那一刻至关重要。
毕竟,在马斯克的叙事中,未来全球最强的AI玩家中,只有谷歌和xAI。
全球首个GW级超算:55万GPU
xAI展现出的惊人速度,连老黄都为之惊叹。他曾这样高度评价道——
马斯克对工程学的理解是独一无二的。别人需要1年完成的事情,xAI仅用19天就搞定了
外界对于Colossus 1的了解,要比Colossus 2系统得多。
从0开始仅用122天就拔地而起,拥有大约20万张H100/H200,以及约3万张GB200 NVL72。
去年,SemiAnalysis高级分析师一篇文章,曾深度分析了Colossus 2工程设计和所取得的成就。
接下来,就扒一下其背后的细节。
六个月,从0到200MW
Colossus 2项目,于2025年3月7日启动。
它将配备55万块芯片,由GB200和GB300 GPU组成,最终未来扩展到百万GPU。
当时xAI在孟菲斯(Memphis)收购了一个100万平方英尺的仓库,以及两个总计100英亩的相邻地块。
不到六个月的时间,SemiAnalysis统计了现场已部署119台风冷冷水机组,即大约200MW的冷却能力。
这就足以驱动,大约11万张GB200 NVL72。
而且,这个巨大的超算,全部采用的是液冷设计。
马斯克一条推文显示,一些机架在7月份就已经安装好了
令人惊叹的是,xAI只用了6个月就完成了甲骨文、OpenAI花了15个月才完成的工作!
据介绍, Colossus 2造价高达数百亿美元。而xAI现在基本没外部收入,主要靠母公司X输血。
而且,报告里特意提了一嘴——
马斯克跟中东几个「土豪」关系很铁,沙特、阿联酋、卡塔尔的主权基金,都是潜在的金主。
