#模型时代# UC伯克利一位教授的一篇博客：为什么语言模型能从下一单词预测中学到很多东西，而视频模型从下一帧预测中学到的东西却很少，因为 LLM 实际上是变相的大脑扫描仪。***柏拉图洞穴中的语言模型为什么语言模型成功了，而视频模型失败了，这对 AI 有何启示？作者：Sergey Levine从人工智

#模型时代# UC伯克利一位教授的一篇博客：为什么语言模型能从下一单词预测中学到很多东西，而视频模型从下一帧预测中学到的东西却很少，因为 LLM 实际上是变相的大脑扫描仪。

***
柏拉图洞穴中的语言模型
为什么语言模型成功了，而视频模型失败了，这对 AI 有何启示？
作者：Sergey Levine

从人工智能这一学科诞生之初，它就与理解人类智能的探索紧密交织在一起。AI 的研究建立在一个基本前提之上：人类的心智本质上是可以计算的。换句话说，心智可以被视作一个算法结构，它的运作可以不依赖于特定的“硬件”载体。这一观点鼓舞着研究者从我们对大脑和思维的理解中汲取灵感，试图构建出拥有人类智能的灵活性与适应性的人工心智。

一些研究者甚至提出，大脑的复杂性和灵活性可能来源于一种统一的算法，这一算法在大脑的各个区域重复应用，从而获得多种能力。对 AI 研究者来说，这一假设尤其具有吸引力——它意味着我们可能并不需要为人工心智逐一设计所有功能，只需发现那个“终极算法”，然后让它在现实世界中自我学习，从而获得人类的各种认知能力。

为什么语言模型成功了？
大型语言模型（LLMs）在模拟人类某些智能方面取得了显著成果。尽管它们仍有明显短板，甚至在最基本的问题上也经不起批评，但LLM这种方法却屡次突破技术障碍，随着模型规模和数据量的指数级提升，不断涌现出新的认知能力。而支撑 LLM 的算法也出奇地简单：下一个词预测与基于强化学习的微调。

这一切看起来似乎印证了“终极算法”的存在假说。如果这种简单的算法真的能逐步获得人类的心智能力，那这无疑是一条极具吸引力的路径。毕竟，人类之所以主宰世界，并非因其记忆力或数学能力，而是因其从经验中快速学习、适应新情境的能力。如果 AI 也能具备这种特性，将是一次飞跃性的进展。

然而，视频模型失败了
问题在于，这一看似稳固的推理基础存在裂缝。在 Transformer 语言模型取得突破前，研究者们其实已经在尝试一个看起来非常相似的方向：视频的下一帧预测（next-frame prediction）。这与 LLM 的“下一个词预测”非常接近，只不过数据是视觉的。

从表面上看，视频数据还更具优势：它信息密度更高，获取成本更低（只需将摄像头对准街道），还能真实反映物理世界的复杂性。而语言数据不过是人类交流的媒介。更进一步，如果一个机器人漂流到某个荒岛或遥远星球，它显然不能指望有人为它输入文本，但却可以持续收集视频。

然而，结果并非如此。尽管现在的模型已经可以生成极其逼真的视频片段，但要实现复杂推理、精巧判断和语义理解，仍然只有语言模型能胜任。我们无法问 Veo 3“夏威夷岛上的岩石体积是否超过珠穆朗玛峰”，但 ChatGPT 却可以轻松应对。看起来语言模型“看到”的物理世界更少，接触的现实更片面，然而却获得了更深层次的认知能力，包括空间和物理常识。

我们是在建模世界，还是在复制人脑？
科学的美在于简洁有力。我们之所以认为胡克定律描述了弹簧的真实运动，是因为它简洁又具预测力。以此类比，若一个简单算法就能表现出类似人类心智的能力，我们自然倾向于认为它接近“正确”。

但还有一个截然不同的解释：语言模型并非通过模拟人类观察世界的方式来学习，而是通过模仿人类的表达，间接复制了心智功能。

它们不是在学习世界，而是在重建“人脑投射在互联网上的影子”。我们不会真用 fMRI 去扫描人脑来训练模型，但 LLM 的训练数据（网络文本）恰恰就是人类按下键盘、表达思想的产物，而这些文字反映了我们脑内的认知过程。LLM 通过压缩并建模这些文字，实际上是在反向工程人类思维过程，并以此复制认知能力。

如果说 Human Connectome Project 正在逐个神经元地重建大脑，那么 LLM 的策略是跳过神经元，直接从语言的“影子”中重建心智。

柏拉图的洞穴：影子还是现实？
这也解释了为什么视频模型没能取得类似突破：视频模型试图像人类那样从经验中习得世界模型，而 LLM 却跳过了这个过程，直接复制了心智结果本身。

这是一个令人振奋又令人失落的事实。好消息是，我们无意中造出了全球最强大的“脑扫描仪”：它能回答问题、解决任务、甚至写诗。坏消息是：这些 AI 活在柏拉图的洞穴中。

这个洞穴就是互联网，照在墙上的光是人类智慧，而语言模型看到的，是我们认知活动投射出的影子。在柏拉图的寓言中，只有离开洞穴，亲眼见过真实世界，才算真正认知。墙上的影子只是扭曲的现实，观察者无法选择自己看到的内容。AI 如果想获得像人类一样的灵活与适应力，必须学会像人类那样主动学习、感知世界，而非仅靠影子的反射。

真正的挑战：走出洞穴，点亮世界
现实是，我们可以预期 LLM 会擅长模仿人类已有的认知技能，却不擅长从真实世界中习得全新能力与表征——这正是人类最擅长的地方。要想真正实现这种能力，就必须研究一种新机制：如何通过物理经验自主学习表示（representation），不再依赖网络中的“语言脑扫描”。

但我们也应保持务实：这些“影子学习”出来的语言模型，确实很好用。如果我们希望在机器中复现类人智能，那么从这样一个高效的原型开始，似乎是个不错的选择。

未来十年，AI 研究的挑战不是否定语言模型的成功，而是在吸取它成功经验的基础上，进一步探索真正具备灵活性和适应性的智能机制——那种能从经验中学习、理解物理世界、解决前所未有的新问题的能力。

发布于北京