DeepMind研究员谈AGI瓶颈

#模型时代# DeepMind世界模型研究员：是否Transformer架构不重要，AGI瓶颈在别处

前几天我发了哈萨比斯开年的第一个采访，他提到实现AGI所欠缺的一个拼图是世界模型。但是，如何理解世界模型，Google DeepMind的世界模型是什么情况，此前我没有找到细致的介绍内容。但是的但是，很巧，马上就刷到了一个Danijar Hafner的播客采访（BuzzRobot频道）。

他是Google DeepMind Staff Research Scientist ，也是Dreamer系列的作者。Dreamer是什么？简单说，是一套让AI"在想象中学习"的系统。传统强化学习让agent直接和环境交互试错，代价高昂；Dreamer的思路是先学一个世界模型（world model）——能预测"如果我做X，环境会变成什么样"——然后agent在这个想象的世界里大量练习，最后再到真实环境验证。

所以，他就是做世界模型的。而且，Hafner既做世界模型的前沿研究，又在DeepMind亲手把模型scale到前沿视频模型的规模。他的视角兼具理论深度和工程务实。

Hafner还有一个回答有点反直觉：架构根本不重要，Transformer、RNN都能到AGI，现在我们使用的模型，已经不是当年纯粹的LLM了，现在瓶颈在别处。

再感慨一下，xAI研究员的播客一出街，这哥们就离职了，传言是解密了太多内部消息，比起来，Google 这边真是开放的多。

一、AGI路径：我们已经不是在用LLM了

1、架构之争是伪命题

"我认为几乎任何架构都能带我们到AGI。"这是Hafner的原话。Transformer能到AGI，RNN也能，差别只是计算效率和当前硬件的适配程度。RNN训练慢一点、推理快一点、可能需要更大模型来弥补架构瓶颈，但最终都能到。

2、真正重要的四件事

Hafner列了清单：compute、objective functions（目标函数）、data、以及RL算法细节。比如长期信用分配（long-term credit assignment）比基础RL需要做得更好。架构只是承载这些的容器。

3、我们已经超越了纯LLM

"LLM能否带我们到AGI这个问题已经不存在了。"因为当下部署的前沿模型已经不是纯LLM了——有图像理解、图像生成、视频理解，视频生成也快合进来了。所以"LLM能否到AGI"这个问题本身已经过时。

二、待解决的核心问题

1、长上下文理解

现在的模型号称百万token上下文，但对视频来说远远不够，视频的token量太大。而且即使有了长上下文，模型真正基于全部上下文来检索和推理的能力还没到位。可能的方向包括：混合retrieval模型、学习状态表示同时做注意力、类似Transformer但不需要回溯的关联记忆。Hafner提到，Transformer之前有很多酷想法，只是当时太早了——"当时重要的不是长期记忆或花哨的寻址机制，而是scale up和计算效率。"

2、超越人类的推理

从人类学推理很容易，但这样就被人类能力上限锁死了。AI系统应该能自己发现推理方式。这意味着要从原始的高维数据（视频、音频、人类生活数据、机器人数据）中提取抽象概念，然后在这些概念上做规划。"我认为我们还没有很好地掌握如何做到这一点。"

三、In-context learning的根本局限

这是播客中一个重要但容易被忽视的讨论。

1、没有真正的目标优化

训练神经网络时，你用目标函数优化它，训练越多就越好。但in-context learning是完全不同的机制——"你只是希望模型学会了以看起来像学习的方式泛化。但系统里没有任何东西会让它真正aggressive地优化任何目标。它并没有真正努力去记住，没有真正努力去理解上下文中的模式。"

2、Nested learning的思路

一种可能的方向是nested learning（嵌套学习）：让模型的一部分在推理时快速学习上下文，而不是像现在的GPT那样上下文通过后就丢弃。"你没法在推理时优化，所以再多的预训练也无法预见推理时会输入什么。"这指向了一个根本性问题。

3、多时间尺度学习

Hafner认为可能需要多个学习时间尺度：快的时间尺度训练效率更高。他能想象一种通用算法，你可以说"我要k=5个学习时间尺度"。目前还没有在这个空间里真正work的算法，但这是个很有意思的方向。

四、神经科学的价值

Thomas Poggio（Demis Hassabis的导师）说，2015年Demis认为构建通用智能是80%神经科学、20%工程；最近的更新是90%工程、剩下才是神经科学。

Hafner的看法更nuanced：神经科学确实能教我们很多，但如果你想建一个大脑模型，就得够大。从连续时间的神经元动力学层面建模会非常昂贵和低效。考虑到所有约束，简化某些概念是合理的。"也许30年后我们有了足够的算力，可以在底层做，看看是否有额外收益。"

现在通过工程能改进的东西太多太明显了。但这不是说神经科学没价值——"既然我们最近把工程推得这么远，我认为回去从神经科学获取直觉的价值反而越来越大了。"持续学习就是其中之一。

五、世界模型：核心概念与Dreamer系列

1、什么是世界模型，为什么重要

世界模型的核心思想是：与其让agent在真实环境里反复试错（昂贵、危险、慢），不如先学一个能预测环境变化的模型，然后在这个"想象"中大量训练。对机器人来说，你不可能让它摔坏一万次来学走路；但如果有了准确的物理世界模型，它可以在模拟中摔一万次，几乎零成本。

这也是为什么Hafner的研究和视频生成模型、机器人都紧密相关——视频预测本质上就是在学世界模型。

2、Dreamer 1-3：在线学习

核心目标是从头开始通过与环境交互学习，追求数据效率和最终性能。到Dreamer 2为止，model-based算法学得很快但会max out；model-free方法需要更多数据但天花板更高。Dreamer 3终于做到了既快又强，而且不用调超参数。他们用Minecraft钻石挑战验证——只从稀疏奖励从头学会获取钻石。

3、Dreamer 4：离线学习

完全相反的问题。"等等，我们已经知道怎么在线学习了，那离线学习呢？"有时候和环境交互是危险的，你只有一个固定的人类数据集，能从中提取多强的策略？同样用Minecraft钻石任务验证，但这次只用人类数据。

当然，两者都不是完美解决方案，只是在隔离的实验设置中解决特定问题。未来自然会把所有这些东西融合在一起。

六、世界模型的scaling与局限

1、视频模型的ceiling比文本高一个数量级

Hafner透露了没发表的结果：他们把世界模型scale到了前沿视频模型的规模，效果很好。更重要的是，视频蕴含的信息量远超文本，"即使是顶级视频模型基本上也是欠拟合的"。现在的视频模型为了生成漂亮的电影片段做了collapse，但如果目标是真正理解物理世界（而不只是生成漂亮视频），scaling的空间至少还有一个数量级。"我们现在离那个天花板还远着呢。"

2、离线数据的局限和修正

Dreamer 4只用人类数据训练，但遇到了反事实问题：人类玩家从不尝试用错误材料做镐子，所以世界模型不知道那些配方不存在，RL agent会exploit这些漏洞。解决方案是2-3轮环境交互的校正数据，问题就消失了。

这里有个重要的动态：RL agent会找到世界模型的所有潜在漏洞，然后在真实环境部署获得反馈，形成对抗博弈。最终世界模型会非常robust，策略也会非常强。纯离线数据在真实世界不可能完美，必须与环境交互才能学到真正的因果模型。

七、对机器人的意义

1、表征是第一波冲击

从视频预测模型学到的表征，对物理世界的理解远超VLM。精确物体位置、物理属性（这个盘子有多滑？这个杯子要握多紧茶才不会洒？）——这些对控制至关重要的表征，是视频预测的副产品。从头训练策略需要大量数据，得到的策略窄而脆弱；用预训练VLM好一点，但那些表征还不是为物理层面的世界理解设计的。

2、虚拟训练是第二波

足够多样的预训练加上少量机器人数据微调，世界模型就能模拟机器人在任意场景中的表现。"你可以在数据中心里，让机器人在一百万个厨房、做一百万种餐食，全部并行训练。"不用真的租一百万间Airbnb、造一百万台机器人。Dreamer 4的论文展示了完整的recipe：添加agent token训练BC策略，然后训练reward model，然后RL微调。

3、时间表预估

"机器人可能在三年、也许四五年内，朝着实用的通用机器人产品的第一个版本取得很好的进展。"复杂的长期推理可能要5-10年才能crack，但实用的通用机器人不需要等那么久。

八、目标函数的设计空间

1、两类目标函数

偏好型（reward、inductive bias）：由人类指定，没有数学公式能描述，必须从人类反馈中学习。信息型（预测、重构、好奇心）：让模型理解数据本身。两边都有很大改进空间。

2、多模态的拼凑现状

现在多模态模型是各种loss的缝合怪：视觉encoder用对比损失、文本用next token、图像生成用diffusion，还要平衡所有这些loss。"可能有办法把一切统一起来，让我们的生活更简单，最终也能获得更好的性能。"不同loss对不同模态有好处，但Hafner认为这不是根本性的trade-off，如果能抽象出来，好处可以跨模态共享。

3、长期RL是硬骨头

1000步以内的短期RL现在很稳定，但端到端优化长horizon任务还不行，误差在每个时间步累积。探索目标、goal-reaching目标、通用的robust reward model——这些都缺好的目标函数设计。"唯一缺的基本上就是目标函数。你可以说我们没有数据，但说实话数据就在那儿，人工收集也不难，真正缺的是如何构建这样系统的idea。"

九、预训练vs强化学习的分工

预训练从样本学知识，高效，适合吸收信息。强化学习从reward学策略，适合优化。

关键问题是：获取最优控制数据几乎不可能。人类数据不是optimal的，你让contractor收集数据，可能要扔掉99%，而且optimal还依赖于horizon长度——理想情况下你要对很长的horizon最优。这就是RL的价值——你不需要optimal数据，只需要让模型自己试错找到更好的策略。

人类也是这样：通过观察学知识（预测接下来会发生什么），通过试错学技能（强化学习）。观察也能学到一些粗略但不精确的技能，因为我们预测别人会做什么时用的心理表征和我们自己的表征差不多，所以能泛化到想象自己做那些事。

十、Agent的环境niche与幻觉问题

这个观点很有意思：agent会收敛到一个distribution，在那里它能合理地达成目标，也能合理地预测会发生什么。系统在那个数据上练得多，分配的模型容量也都在那个相关分布上，所以不太会失败。但也会开始遗忘其他东西。

另一种构建更强系统的方式是做大、用更多数据训练，扩大这个niche。但分布边缘总会有模型出错、泛化失败、产生幻觉的地方。"我认为这就是我们现在在LLM上看到的——它们在大部分分布内的东西上都相当通用、相当好，但在边缘地带会被绊倒、错误泛化、产生幻觉。"

做一些在线RL会帮助精炼系统：如果它产生幻觉，用户不满意，就会得到负reward，然后要么学会正确答案，要么学会说"我不知道"，最终落在一个非常稳固的分布上。

十一、持续学习的反馈循环

GPT-4发布后和用户交互产生的数据要等1-2年才能影响GPT-5。能不能把这个周期缩到几天，甚至几秒？

理论上能，但挑战巨大：大模型训练太贵、在线更新时保持安全性很难、静态模型更容易研究和修补quirks。但Hafner认为这个反馈循环终将缩短。

有一种方式是：如果你有百万用户，也许可以把1万个用户交互batch在一起做一次更新，模型就真正深度学习了，可能甚至不需要不同时间尺度的学习。但也可能我们确实需要多个时间尺度来提高效率。

十二、未来展望

"这个领域太interconnected了，不太可能真正分化。"随着训练大模型的开销，只做一次训练、得到一个能跨领域受益的模型才合理。Agent已经在成为前沿模型的一部分，视频生成虽然现在还分开，但可能一年内就会有用同一套权重的强大omni模型。

各种能力会持续融合。学习推理看起来概念上很有挑战，可能需要5-10年。机器人可能3-5年内出现第一个实用的通用产品。不一定需要crack真正复杂的长期推理才能做出有用的东西。

核心归纳

Q1: 架构（Transformer vs RNN）对AGI重要吗？
不重要。几乎任何架构都能到AGI，差别只是计算效率和硬件适配。真正重要的是compute、目标函数、数据、算法细节。

Q2: In-context learning的根本问题是什么？
没有真正的目标优化。模型只是希望学会了看起来像学习的泛化，但系统里没有任何东西让它aggressive地优化目标。可能需要推理时学习和多时间尺度学习来突破。

Q3: 世界模型对机器人有什么用？
两重价值：一是预训练学到的表征对物理世界理解远超VLM，对精确控制至关重要；二是可以模拟机器人在任意场景中的表现，实现"百万厨房并行训练"。

Q4: LLM为什么会在边缘情况产生幻觉？
Agent会收敛到能达成目标且能预测的分布，在这个分布内很强，但边缘地带会失败。在线RL可以帮助：幻觉导致负reward，模型要么学会正确答案，要么学会说"我不知道"。

发布于美国