#模型时代# UC伯克利一位教授的一篇博客:为什么语言模型能从下一单词预测中学到很多东西,而视频模型从下一帧预测中学到的东西却很少,因为 LLM 实际上是变相的大脑扫描仪。
***
柏拉图洞穴中的语言模型
为什么语言模型成功了,而视频模型失败了,这对 AI 有何启示?
作者:Sergey Levine
从人工智能这一学科诞生之初,它就与理解人类智能的探索紧密交织在一起。AI 的研究建立在一个基本前提之上:人类的心智本质上是可以计算的。换句话说,心智可以被视作一个算法结构,它的运作可以不依赖于特定的“硬件”载体。这一观点鼓舞着研究者从我们对大脑和思维的理解中汲取灵感,试图构建出拥有人类智能的灵活性与适应性的人工心智。
一些研究者甚至提出,大脑的复杂性和灵活性可能来源于一种统一的算法,这一算法在大脑的各个区域重复应用,从而获得多种能力。对 AI 研究者来说,这一假设尤其具有吸引力——它意味着我们可能并不需要为人工心智逐一设计所有功能,只需发现那个“终极算法”,然后让它在现实世界中自我学习,从而获得人类的各种认知能力。
为什么语言模型成功了?
大型语言模型(LLMs)在模拟人类某些智能方面取得了显著成果。尽管它们仍有明显短板,甚至在最基本的问题上也经不起批评,但LLM这种方法却屡次突破技术障碍,随着模型规模和数据量的指数级提升,不断涌现出新的认知能力。而支撑 LLM 的算法也出奇地简单:下一个词预测与基于强化学习的微调。
这一切看起来似乎印证了“终极算法”的存在假说。如果这种简单的算法真的能逐步获得人类的心智能力,那这无疑是一条极具吸引力的路径。毕竟,人类之所以主宰世界,并非因其记忆力或数学能力,而是因其从经验中快速学习、适应新情境的能力。如果 AI 也能具备这种特性,将是一次飞跃性的进展。
然而,视频模型失败了
问题在于,这一看似稳固的推理基础存在裂缝。在 Transformer 语言模型取得突破前,研究者们其实已经在尝试一个看起来非常相似的方向:视频的下一帧预测(next-frame prediction)。这与 LLM 的“下一个词预测”非常接近,只不过数据是视觉的。
从表面上看,视频数据还更具优势:它信息密度更高,获取成本更低(只需将摄像头对准街道),还能真实反映物理世界的复杂性。而语言数据不过是人类交流的媒介。更进一步,如果一个机器人漂流到某个荒岛或遥远星球,它显然不能指望有人为它输入文本,但却可以持续收集视频。
然而,结果并非如此。尽管现在的模型已经可以生成极其逼真的视频片段,但要实现复杂推理、精巧判断和语义理解,仍然只有语言模型能胜任。我们无法问 Veo 3“夏威夷岛上的岩石体积是否超过珠穆朗玛峰”,但 ChatGPT 却可以轻松应对。看起来语言模型“看到”的物理世界更少,接触的现实更片面,然而却获得了更深层次的认知能力,包括空间和物理常识。
我们是在建模世界,还是在复制人脑?
科学的美在于简洁有力。我们之所以认为胡克定律描述了弹簧的真实运动,是因为它简洁又具预测力。以此类比,若一个简单算法就能表现出类似人类心智的能力,我们自然倾向于认为它接近“正确”。
但还有一个截然不同的解释:语言模型并非通过模拟人类观察世界的方式来学习,而是通过模仿人类的表达,间接复制了心智功能。
它们不是在学习世界,而是在重建“人脑投射在互联网上的影子”。我们不会真用 fMRI 去扫描人脑来训练模型,但 LLM 的训练数据(网络文本)恰恰就是人类按下键盘、表达思想的产物,而这些文字反映了我们脑内的认知过程。LLM 通过压缩并建模这些文字,实际上是在反向工程人类思维过程,并以此复制认知能力。
如果说 Human Connectome Project 正在逐个神经元地重建大脑,那么 LLM 的策略是跳过神经元,直接从语言的“影子”中重建心智。
柏拉图的洞穴:影子还是现实?
这也解释了为什么视频模型没能取得类似突破:视频模型试图像人类那样从经验中习得世界模型,而 LLM 却跳过了这个过程,直接复制了心智结果本身。
这是一个令人振奋又令人失落的事实。好消息是,我们无意中造出了全球最强大的“脑扫描仪”:它能回答问题、解决任务、甚至写诗。坏消息是:这些 AI 活在柏拉图的洞穴中。
这个洞穴就是互联网,照在墙上的光是人类智慧,而语言模型看到的,是我们认知活动投射出的影子。在柏拉图的寓言中,只有离开洞穴,亲眼见过真实世界,才算真正认知。墙上的影子只是扭曲的现实,观察者无法选择自己看到的内容。AI 如果想获得像人类一样的灵活与适应力,必须学会像人类那样主动学习、感知世界,而非仅靠影子的反射。
真正的挑战:走出洞穴,点亮世界
现实是,我们可以预期 LLM 会擅长模仿人类已有的认知技能,却不擅长从真实世界中习得全新能力与表征——这正是人类最擅长的地方。要想真正实现这种能力,就必须研究一种新机制:如何通过物理经验自主学习表示(representation),不再依赖网络中的“语言脑扫描”。
但我们也应保持务实:这些“影子学习”出来的语言模型,确实很好用。如果我们希望在机器中复现类人智能,那么从这样一个高效的原型开始,似乎是个不错的选择。
未来十年,AI 研究的挑战不是否定语言模型的成功,而是在吸取它成功经验的基础上,进一步探索真正具备灵活性和适应性的智能机制——那种能从经验中学习、理解物理世界、解决前所未有的新问题的能力。
