池建强 25-10-21 09:12
微博认证:墨问西东创始人

最新 Andrej Karpathy 访谈,Agent 还得十年
两天前,Andrej Karpathy 上了 Dwarkesh 的播客。油管上有视频版,周末我把这期播客过了两遍,信息密度极高。他的核心结论可以用一句话概括:Agent 的发展还需要十年。

我谈谈自己的阅读感受。

在整个圈内媒体都在喊「智能体元年」的时代,Andrej Karpathy 的话像是给业内泼了一盆冷水,但就像北京这几天的低温一样,秋天来了,是时候清醒一下了。

1

Karpathy 说,我们离能像实习生一样工作的 Agent,还差很远。
我们都希望把“Agent”当做一名员工或实习生,就像团队里已有的员工一样——什么时候你会愿意把他们的工作交给像 Claude 或 Codex 这样的 Agent 呢?
现在还不行。要让 Agent 真能接手员工的工作,缺的不是小修小补,而是一整套能力:更高的智能,更强的多模态,更可靠的电脑操作。Agent 没有持续学习能里——你告诉它们一件事,它们不会真正“记住”;它们在认知上也有缺陷,综合起来就是无法独立完成工作。把这些问题都解决好,恐怕需要十年的尺度。
“为什么是十年,不是一年或五十年?” 他给的是经验和直觉:我在 AI 领域差不多工作了两代时间,大概 15 年。我看过人们做预测、验证预测。我在工业界和研究界都待过。我有一套对时间尺度的直觉。我的感觉是,这些问题是可解的,是可以跨越的,但是很难。如果把这些平均一下,我的感觉就是十年这样的时间尺度。
这让我想起特斯拉自动驾驶。当年大家都以为只要再堆一点算力、再多几辆测试车,就能解决问题。但现实是每一个进步都要付出指数级的代价。AI 也一样,模型 Demo 和可靠产品之间的鸿沟,比很多人想象的要宽得多。

2

Karpathy 的另一个观点值得细细咀嚼:强化学习是糟糕的选择,但其他方法更糟。
模型现在的学习方式像是“用吸管吸监督信号”——它并行尝试几百种解法,只要一次蒙对,就会强化整条路径,包括所有错误的步骤。于是,AI 学到的不是“对的过程”,而是“凑巧的轨迹”。
这和人类完全不同。我们找到答案后,会反思为什么正确、哪些部分无效,有“过程监督”。但要把过程监督自动化并不容易:需要可拆解的分项评分、可靠的评审者,整体复杂且脆弱。我们学习的不是答案,而是方法论。人类学习的本质是“元学习”:我们在学习怎么学习…

后面的内容看图文👆

发布于 北京