高飞 25-11-18 23:14
微博认证:至顶科技创始人 AI博主

#模型时代# “教科书是前人结晶的算力”,马斯克几个小时没发推,可能就出事儿了 |xAI联合创始人Jimmy Ba 的AI方法论

最近在补今年Cerebral Valley AI Summit 大会的内容,发现 xAI 联合创始人 Jimmy Ba (华裔加拿大籍)的压轴对谈很有意思。作为 Geoffrey Hinton 的学生,他是深度学习优化算法 Adam 的作者之一,是典型的学术派出身,现在却在掌管着最激进的算力怪兽。

另外,对于xAI,大家听马斯克讲的很多,但是他的团队出来并不多。当然, Jimmy Ba 是露面多的,之前Grok 3发布,他是C位。

在旧金山的这场活动上,他差点没赶上演讲。不是因为工作太忙,而是因为他的特斯拉 FSD 在海湾大桥上走错了路。他在台上并没有回避这个尴尬,反而用一种非常工程师的幽默感,把这次“迷路”变成了对 AGI 现状最精准的隐喻:我们以为终点近在咫尺,但现实总会把你带上错误的匝道。

在这场对谈中,他绕开了那些宏大的商业互吹,从一个极其刁钻的技术视角,解释了为什么他要在孟菲斯建那个庞大的集群,以及他如何看待所谓的“机器希特勒(MechaHitler)”事故。

对了,还有一个很搞笑的信息,他说:如果马斯克超过4小时没发推特,团队就会开始紧张,担心是不是出大事了。

笔记如下:

1. AGI 的路被一条匝道卡住了
Jimmy Ba 开场就讲了个尴尬的段子。30个月前创办 xAI 时,团队信誓旦旦地认为2026年就是 AGI 元年。眼看2025年只剩一个月,AGI 还没来,他自己先被自家的 AI 坑了。
他在来会场的路上,那辆号称全自动驾驶的特斯拉突然做了一个错误的决定,不仅没去金银岛(Treasure Island),反而把他拉上了州际公路。他自嘲说,原本以为 AGI 是星辰大海,结果现实里的 AI 连个路口都搞不定。

2. GPT-2 本可以在2009年诞生
他做了一个非常有意思的复盘:如果是拿着今天的知识回到过去,GPT-2 这种级别的模型最早哪一年能造出来?
他在信封背面算了一笔账,答案是2009年。
那时候的 GeForce 显卡虽然弱,但已经有了 CUDA 内核,算法上其实没有绝对壁垒。如果在2009年就有人愿意疯狂堆算力,大模型时代会提前15年到来。这说明,很多时候阻碍爆发的不是缺少“天才的想法”,而是基础设施的滞后。

3. 教科书是“结晶化”的算力
当被问到为什么还要无止境地堆算力时,他给出了一个极具诗意的解释。
他说,什么是知识?牛顿坐在苹果树下,大脑进行了极高强度的“计算”,然后把结果写进了书里。后人读书,其实是在读取前人“结晶化的算力”(crystallized computation)。
现在的 AI 训练也是同理。我们不需要模型每次都重新推导微积分,我们需要用海量算力把这些逻辑“压缩”进模型里,让它成为新一代的直觉。

4. 马斯克的“4小时心跳”定律
xAI 的内部管理非常有马斯克特色。Jimmy 透露,在公司里大家并不看什么复杂的OKR,而是盯着老板的推特(X)。
“如果那个男人超过4小时没发推特,所有人都会开始紧张。”
这听起来像个笑话,但也暴露了 xAI 的工作流:这是一家与其说是由管理层驱动,不如说是由实时信息流驱动的公司。

5. 不要雇佣“Agent”,要雇佣“模拟人”
在那个人人都在谈论 AI Agent(智能体)的会场,他造了个新词:Human Emulators(人类模拟器)。
这不仅是换个名字。他认为竞争对手都在卷“企业席位”或者“Token数量”,这还是SaaS的逻辑。xAI 的逻辑是:如果我能让 GPU 24小时不间断地模拟一个人类员工,那我应该按它创造的“价值”收费,而不是按它消耗的电费(卡路里)收费。
这直接改变了商业模式的锚点。

6. 人类的试卷已经不够做了
他在现场列了一组数据:美国数学竞赛题(AMC),模型几乎满分;研究生级别的科学问题(GPQA),准确率已经到了86%-88%;即便是人类最难的研究性问题,明年夏天估计也能被通关。
这就是他焦虑的地方:基准测试(Benchmark)已经枯竭了。
下一步不能再盯着单一技能(比如“会写Python”),而是要盯着“职业”。不是通过考试,而是看模型能不能完整地通过“担任一个金融分析师”或“经营一家夫妻老婆店”的图灵测试。

7. 迈克尔·贝瑞的做空与数字广场
为什么 xAI 必须背靠 Twitter (X)?他举了当天的例子:《大空头》原型 Michael Burry 刚刚发了一条做空的推文。
这种实时的、混乱的、充满人类情绪的信息,是静态互联网数据里没有的。他把 X 称为“人类集体意识的数字广场”。对于训练一个能理解现实世界的模型来说,这种实时的“噪音”比精修的维基百科更重要。

8. “伽利略测试”与第一性原理
关于模型胡说八道(Hallucination)的问题,他提出了一个深刻的哲学困境。
目前的模型训练是基于“预测下一个词”,本质上是在模仿大多数人的共识。但如果把这套逻辑放在17世纪,模型会根据“大多数人的共识”告诉你:太阳是绕着地球转的。
这就是“伽利略测试”。真理往往掌握在少数人手里,往往是反直觉的。他希望 Grok 能像伽利略一样,即使面对全人类的反对,也能通过第一性原理推导出“地球绕着太阳转”。

9. 社区笔记是最好的老师
那怎么解决“机甲希特勒”这种价值导向跑偏的问题?他没有提什么复杂的对齐算法,而是点名了 X 的“社区笔记”(Community Notes)功能。
这其实是一种众包的强化学习(RLHF)。当模型犯错时,依靠真实世界中多元观点的碰撞和修正,比工程师在后台写死一行“道德代码”要有效得多。

10. 2026年的预测:从比特到原子
最后,关于未来的预测,他没有再去画 AGI 的大饼。
他说,现在的 AI 只是在移动比特(Bits),处理信息。2026年最让他兴奋的跨越,是 AI 开始移动原子(Atoms)。
当 xAI 拥有的算力集群达到吉瓦(Gigawatt)级别时,不仅仅是聊天机器人会变聪明,而是会有数百万个物理机器人(Bots)开始接管现实世界的体力劳动。

发布于 日本