高飞 25-12-17 20:54
微博认证:至顶科技创始人 AI博主

#模型时代# DeepMind CEO年度对话:通往AGI的5个关键判断与10年路线图,一半精力在Scale,一半精力在架构创新

又一期Google DeepMind联合创始人兼CEO Demis Hassabis的新播客,来自他与数学家Hannah Fry的年度深度对话。对了,Hannah Fry可以说是Google播客的官方主持人了。

这期播客他们没有谈产品发布,聚焦更根本的问题:AGI究竟还有多远?当前模型的真正短板在哪?AI泡沫是否存在?以及一个哲学追问——图灵机的极限在哪里?

我觉得最狠的一个判断是:AI革命规模可能是工业革命的10倍,但速度也是10倍——也就是说,一个世纪的变化可能压缩在十年内发生。如果真如此,很惊人,也很吓人。

一、当前AI的真实能力边界

Hassabis对当前模型的评估很清醒:能力惊人,但远非AGI。

1、锯齿状智能(Jagged Intelligence)是核心问题

当前AI系统最大的特征是"不一致"。同一个模型可以在国际数学奥林匹克竞赛中拿金牌,却在简单的逻辑问题上犯低级错误;能写出博士级别的论文,却数不清一个单词里有几个字母。

"它们在某些维度上表现惊人,甚至达到博士水平,但在其他维度上连高中水平都不到。这种不均匀是当前系统和真正AGI之间的核心差距。"

造成这种现象的原因是多方面的:有时候是tokenization(分词)的问题——模型可能根本"看不到"每个独立的字母;有时候是推理链条断裂;有时候是缺乏自我校验机制。

2、幻觉问题的根源:模型不知道自己不知道什么

Hassabis认为大部分幻觉的本质是"强行回答"——系统被训练成总要给出答案,而不是承认不确定性。

解决方案的方向很明确:让模型学会introspection(内省)。AlphaFold能输出置信度分数,告诉你哪些预测可靠、哪些不确定。大语言模型需要类似的机制,但实现起来更难,因为语言模型处理的是开放域问题,而不是蛋白质结构这种有限定义的任务。

"现在的系统有点像一个人在糟糕的一天里,脱口而出脑子里冒出的第一个想法。大多数时候没问题,但遇到真正困难的问题时,你需要停下来,重新检查你准备说的话,然后调整。"

3、Thinking系统只是走了50%的路

当前的"思考型"模型在推理时花更多时间,效果确实更好。但Hassabis认为这只解决了一半问题——系统还不能持续地、有目的地利用这些思考时间来验证输出、调用工具做交叉检验。

二、通往AGI的技术路径

DeepMind的策略是"50%投入scaling,50%投入创新",两者缺一不可。

1、Scaling没有撞墙,但收益在递减

外界关于"scaling laws失效"的说法,Hassabis认为是误解了实际情况。

"不是零和一的关系,不是要么指数增长、要么完全停滞。我们处于两者之间的某个区间——收益在递减,但每次迭代仍然有显著的、值得投资的进步。"

数据瓶颈确实存在,但有多种绕过方式:合成数据、在可验证领域(编程、数学)让系统自己生成训练数据。理论上,在这些领域可以生成无限的训练数据。

2、从AlphaGo到AlphaZero的路径会重演

当前的大语言模型更像AlphaGo——从人类知识出发,学习互联网上的所有信息,压缩成一个可以泛化的artifact(制品)。

下一步是让系统学会用AlphaGo那样的搜索和规划能力来引导推理,做有用的planning traces(规划轨迹)。

再下一步,也是更难的一步,是AlphaZero模式——系统开始自己发现知识,而不是依赖人类数据。

"我目前不觉得我们受限于人类知识的总量。主要问题是我们还不知道如何像AlphaGo那样可靠地使用这些系统来做搜索和规划。"

3、在线学习是缺失的关键能力

当前模型有个根本局限:它们不能在部署后继续学习。训练完成、调优完成、发布出去,就固定了。它们不会像人类那样在真实世界中持续学习和适应。

这是Hassabis明确指出的"AGI必需但目前缺失"的能力之一。

三、世界模型:被低估的AGI拼图

如果说大语言模型是DeepMind的"显学",世界模型则是Hassabis个人投入最深的"心头好"。

1、语言无法覆盖的知识类型

语言模型能理解的世界比预期多,但仍有大量知识无法用语言描述:
• 空间感知和机械动力学
• 传感器输入(关节角度、气味等)
• 需要亲身体验才能习得的技能

"很多东西你没法用文字描述,你必须去体验。"

这类知识对机器人、通用助手、甚至科学研究都至关重要。

2、Genie和Veo:用生成能力验证理解能力

DeepMind的思路是:如果系统能生成逼真的世界,就证明它在某种程度上"理解"了世界的运作规律。

Genie是可交互的世界模型,Veo是视频生成模型。它们已经能很好地处理反射、液体流动等复杂物理现象——至少在人眼看来是这样。

下一步是让物理精度达到真正的实验级别。DeepMind正在用游戏引擎生成"物理基准测试"——简单的物理实验场景(球体滚动、钟摆运动),测试模型是否真正掌握牛顿定律,而不只是"看起来对"。

"目前它们是近似,肉眼看着真实。但要用于机器人训练,精度还不够。"

3、SIMA+Genie:两个AI互相对话

最有趣的实验是把SIMA(能在游戏中执行任务的agent)放进Genie生成的世界里——一个AI在另一个AI创造的世界中学习和探索。

这可能开启一种新的训练范式:无限的任务生成、自动的难度递进、不需要人类标注的学习循环。

四、根节点问题:用AI解锁下游突破

Hassabis最早提出的"root node problems"(根节点问题)概念正在逐步兑现。

1、AlphaFold是概念验证

AlphaFold证明了一件事:AI可以解决困扰科学界数十年的基础问题。蛋白质折叠不是一个应用层问题,而是一个"一旦解决就会解锁大量下游研究"的根节点问题。

2、下一个目标:室温超导体和核聚变

材料科学是下一个重点。Hassabis明确提到想做的事:室温超导体、更好的电池。

核聚变方面,DeepMind刚与Commonwealth Fusion签署深度合作,帮助他们控制托卡马克反应堆中的等离子体,可能还涉及材料设计。

"如果能源真的变得可再生、清洁、几乎免费,很多其他事情就变得可行——海水淡化可以遍地开花,甚至可以用海水制造火箭燃料。"

3、量子计算的互助关系

DeepMind正在用机器学习帮助Google的量子团队做纠错码优化。未来可能反过来——量子计算帮助AI突破经典计算的瓶颈。

五、AI泡沫、社会影响与AGI时间线

1、泡沫存在,但分领域看

Hassabis不认为这是一个"有或没有"的问题。

有泡沫的部分:种子轮估值动辄数百亿美元的初创公司,还没做出什么就融了天价。

没泡沫的部分:大科技公司的核心AI业务有真实的商业支撑。

"即使有泡沫破裂,DeepMind的位置也很稳。我们有自己的TPU基础设施,有Google的产品生态可以整合AI。"

2、不能重蹈社交媒体覆辙

AI不能以"最大化用户参与度"为目标,否则会制造回音室效应。

Gemini的persona设计目标是:温暖、有帮助、简洁,但会友善地push back那些不合理的观点。比如用户说地球是平的,系统不会迎合说"好主意!"

"我们正在发展一门关于人格的科学——如何测量模型在真实性、幽默感等维度上的表现,然后设定我们希望它处于什么位置。"

3、AGI时间线:5-10年

Hassabis给出的时间框架是5到10年。他强调这个时间对于建立应对机制来说"不长"——机构建设、国际协调都需要时间,而目前"正确的机构可能根本不存在"。

"我很惊讶没有更多人在讨论这些问题。"

4、工业革命的教训

Hassabis最近在研究工业革命历史。他的观察是:
• 工业革命用了大约一个世纪展开
• 带来了巨大的好处(婴儿死亡率下降、现代医学、交通)
• 但过程中有严重的社会错位,需要工会等新组织形式来重新平衡

AI革命的区别是:规模可能是工业革命的10倍,速度也是10倍——也就是说,一个世纪的变化可能压缩在十年内发生。

六、图灵机的极限在哪里?

这是Hassabis自称"一生的核心问题"。

"我从知道图灵和图灵机的那一刻起就爱上了这个问题:图灵机的极限在哪里?"

他的工作假设是:可能没有极限。

到目前为止,没有人找到宇宙中任何不可计算的东西。AlphaFold折叠蛋白质、AlphaGo下围棋——这些都远超传统复杂性理论对经典计算机能力的预期。

"如果你逼我猜,我会说宇宙中的一切都是计算上可处理的。在物理学证明我错了之前,我会继续按这个假设工作。"

这意味着什么?意味着我们此刻感受到的一切——光线的温度、桌面的触感、背景的嗡鸣声——理论上都可以被经典计算机复现。

唯一的例外可能是Roger Penrose提出的理论:如果大脑中存在量子效应,而且那与意识有关,那么经典机器可能永远无法复现它。

但Hassabis的立场是存疑的:"我和量子研究的人讨论过,也许我们只需要从量子系统获取数据,然后用经典方法做模拟。"

总结

Hassabis在这次对话中展现了一种罕见的清醒:对AI能力的边界有准确判断,对通往AGI的路径有具体思考,对社会影响有历史视角,对哲学问题有终极好奇。

最打动人的或许是他对"不确定性"的诚实:锯齿状智能是个真问题、scaling在递减、世界模型的物理精度还不够、我们可能需要全新的经济系统、图灵机的极限他也不知道。

但这种诚实背后是一种更深的自信——"如果需要更多科学创新,我押注我们是做这件事的地方。"

核心归纳

Q1: 当前AI最大的短板是什么?
锯齿状智能。模型在某些任务上表现出博士水平,在其他任务上连高中水平都不到。核心原因是缺乏一致性、不知道自己不知道什么、没有可靠的自我校验机制。这是AGI与当前系统的根本差距。

Q2: DeepMind认为AGI还需要什么关键能力?
三个:一是AlphaGo式的搜索和规划能力叠加到语言模型上;二是AlphaZero式的自主知识发现,不再依赖人类数据;三是在线学习能力,让模型在部署后能继续从真实世界中学习。

Q3: 为什么Hassabis如此重视世界模型?
因为语言无法覆盖所有知识类型。空间感知、物理直觉、传感器输入——这些对机器人和通用助手至关重要,但无法用文字描述。世界模型是让AI真正理解物理世界的路径,也是Hassabis个人最长久的研究兴趣。

发布于 韩国