【从“下一个词”到“下一个物理状态”:AI预训练的范式革命】
下一词预测是第一代预训练范式。现在我们正经历第二次范式转移:世界建模,或者说“下一物理状态预测”。
很少有人意识到这场转变的深远影响。因为目前世界模型最火的应用场景,不过是AI生成的视频内容,接下来可能还有游戏内容。但我有充分信心预测:2026年将成为大型世界模型真正为机器人技术和多模态AI奠定基础的元年。
什么是世界建模?简单说,就是基于某个动作,预测下一个可能的世界状态。视频生成模型是其中一种实现形式,“下一状态”是一系列RGB帧,“动作”是描述要做什么的文本。本质上,视频世界模型是可学习的物理模拟器和渲染引擎。它们捕捉的是反事实推理能力:如果采取不同的行动,未来会如何展开。
世界模型从根本上把视觉放在第一位。
相比之下,视觉语言模型本质上是语言优先的。从最早的原型开始,故事大同小异:视觉在编码器端进入,然后被路由到语言主干网络。随着时间推移,编码器在改进,架构在优化,视觉试图变得更“原生”。但它始终是二等公民,被我们多年为大语言模型打造的强大能力所压制。
这条路很方便。我们知道大语言模型能扩展,我们的架构直觉、数据配方设计、基准测试指导都高度针对语言优化。
2025年的物理AI领域被VLA主导:在预训练的视觉语言模型检查点上嫁接一个机器人动作解码器。说白了这是“LVA”:语言大于视觉大于动作,按公民等级递减排列。这条路同样方便,因为我们熟悉视觉语言模型的配方。但视觉语言模型的大部分参数都分配给了知识,比如“这团像素是可口可乐品牌”,而不是物理规律,比如“如果你把可乐瓶倾斜,它会流成棕色水洼,弄脏白桌布,毁掉电机”。
从生物学角度看,视觉主导着我们的皮层计算。大约三分之一的皮层用于处理视觉信息,分布在枕叶、颞叶和顶叶区域。相比之下,语言依赖的区域相对紧凑。视觉是连接大脑、运动系统和物理世界的最高带宽通道。它闭合了“感觉运动回路”,这是机器人技术要解决的最重要的回路,中间根本不需要语言。
大自然给了我们一个存在性证明:一种语言能力极弱但身体极其灵巧的物理智能。那就是猿类。
我见过猿类开高尔夫球车,用螺丝刀换刹车片,动作像人类技工一样熟练。它们的语言理解能力不超过BERT或GPT-1,但它们的物理技能远超我们最先进的机器人。猿类可能没有好的语言模型,但它们肯定有一个强大的“如果会怎样”的心理图景:物理世界如何运作,如何对它们的干预做出反应。
世界建模的时代已经到来。正如Jitendra喜欢提醒我们这些扩展成瘾者的:“监督学习是AI研究者的鸦片。”整个YouTube和智能眼镜的兴起将以远超所有训练文本的规模捕捉我们世界的原始视觉流。
我们将看到新型预训练:下一世界状态可能不仅包括RGB,3D空间运动、本体感觉和触觉感知才刚刚起步。
我们将看到新型推理:在视觉空间而非语言空间中的思维链。你可以通过模拟几何和接触来解决物理谜题,想象物体如何移动和碰撞,而无需翻译成字符串。语言是瓶颈,是脚手架,不是地基。
我们将面对新的潘多拉魔盒:即使有了完美的未来模拟,运动动作应该如何解码?像素重建真的是最佳目标吗,还是应该进入替代的潜在空间?我们需要多少机器人数据,扩展遥操作仍然是答案吗?经过所有这些探索,我们是否终于在接近机器人技术的GPT-3时刻?
Ilya说得对。AGI还没有收敛。我们回到了研究的时代,没有什么比挑战第一性原理更令人兴奋的了。
x.com/DrJimFan/status/2018754323141054786
