#模型时代# Andrej Karpathy最新访谈:我们没有在制造生灵,而是在召唤幽灵
Andrej Karpathy这次在Dwarkesh Patel的访谈必然是要引起轰动的,刚看了一下,不到一天已经16万次观看。Andrej Karpathy的资历不用说了,15年原生AI研究、曾任Tesla自动驾驶负责人,还是OpenAI创始成员的技术大牛。
标题是我意译的,原文是: “We’re summoning ghosts, not building animals”
这期播客,他分享了他对AGI时间线、强化学习陷阱、以及AI教育革命的独特见解。当然,最引发关注的,还是他对强化学习的看法。
前不久,Sutton做了一系列访谈,讲了强化学习是AGI必由之路,而Andrej Kaparthy的看法则显然不同。我简单做了归纳:
分歧一:对强化学习本质价值的判断截然相反
Sutton认为强化学习是"基础AI",是智能的核心和本质。他主张智能就是从真实经验中学习、通过奖励信号来判断行为好坏,这才是理解世界的正确方法。
相反,Karpathy直言当前强化学习"糟糕透了",批评其效率极低——让AI做几百次尝试,最后只能从"成功或失败"这一个信号来学习,就像"通过吸管吸取监督信号"。更糟的是,强化学习容易被钻空子:用大模型来评判AI的表现,结果AI学会了输出"dhdhdhdh"这样的乱码来骗取满分,因为这是评判模型没见过的、会判断错误的情况。
分歧二:对人类学习方式的理解完全不同
Sutton坚持人类和动物不是通过"老师示范、学生模仿"来学习的,而是通过试错来理解世界。他认为婴儿是自己尝试、自己发现规律的,自然界根本不存在有人手把手教的监督学习,"如果理解了松鼠的智能,就几乎理解了人类智能"。
Karpathy则持相反观点:人类很少用强化学习来学习智能任务,人类不会做几百次尝试然后根据最终成败简单地强化整个过程。人类会进行复杂的反思——"这一步我做对了,那一步做错了,下次应该这样"。而且人类有睡眠时的知识巩固、白天的工作记忆等机制,这些大模型都没有。
分歧三:对AI技术路线的选择根本对立
Sutton从基本原理出发,认为依赖人类知识的方法最终都会输给纯粹的"从经验学习+大算力"(这是他著名的"苦涩的教训"文章的核心)。他批评大语言模型只是在模仿人类说话,没有真正的目标,也没有对世界的真实理解。
Karpathy则是工程实用主义者,他认为让模型读遍互联网(预训练)虽然是"蹩脚的进化",但这是现在能用的方法。他认为ChatGPT通过模仿人类对话微调出来是个惊人的成功。他主张当前应该走"大语言模型+改进的强化学习"路线,比如给学习过程的每一步打分、加入反思机制,而不是推倒重来。他直言:"我是工程师,戴着安全帽,只关注什么真正管用。"
更多内容,就见下边的总结吧:
***
从"召唤幽灵"到"十年造神":OpenAI前研究科学家Andrej Karpathy眼中的AGI真相
Andrej Karpathy,这位拥有15年AI研究经验、曾任Tesla自动驾驶负责人、OpenAI创始成员的技术大牛,在昨天发布的Dwarkesh Podcast分享了他对AGI时间线、强化学习陷阱、以及AI教育革命的独特见解。当所有人都在喊"2025是Agent元年"时,他冷静地说:"这不是Agent的一年,这是Agent的十年。"
主体内容
一、AGI时间线:为什么是十年,不是一年?
第一性原理思考:Karpathy认为当前AI Agent就像一个"不太靠谱的实习生",你想让它帮忙,但它就是做不到,主要原因包括智能不足、多模态能力欠缺、无法持续学习、缺乏计算机操作能力,这些认知缺陷需要至少十年时间逐一攻克。
"We're summoning ghosts, not building animals" - 这是Karpathy对当前AI本质的精准描述。LLM更像是在"召唤"知识的幽灵,而不是像动物那样真正理解和学习世界,它们在互联网文本中"发现"数学和推理,就像考古学家挖掘化石一样,但这种发现有其极限。
具体的认知缺陷包括:
• 无法进行符号运算:给LLM一个20位数乘法,它会完全崩溃,因为互联网上没有这样的例子,它无法像人类那样通过算法步骤进行计算
• 缺乏系统2思考:人类可以花10分钟思考一个问题,而LLM只能进行固定计算量的"快思考",无法像AlphaGo那样通过搜索树进行深度推理
• 没有持续学习能力:告诉它一个事实,下次对话它就忘了,无法像人类那样积累经验
二、强化学习的陷阱:整个行业的集体误判
一个大胆的判断:"强化学习很糟糕,但其他所有方法更糟糕。" Karpathy直言不讳地指出,2013-2017年整个AI界对强化学习游戏的痴迷是一个"misstep"(误入歧途),包括早期OpenAI在内的顶级实验室都在这条错误的道路上浪费了大量时间。
为什么强化学习不work:
• 奖励信号太稀疏:在Atari游戏中随机按键很难获得奖励,学习效率极低,就像在黑暗中摸索,可能要"烧掉一片森林的计算资源"也学不到什么
• 缺少表征能力:没有预训练的语言模型做基础,纯粹的强化学习就像让婴儿直接学微积分
• 环境不真实:游戏世界太简单,无法迁移到真实世界的复杂任务
正确的路径:先通过大规模预训练获得强大的表征能力(LLM),再在上面构建Agent能力,这就是为什么现在的computer-use agents都建立在LLM基础上。
三、人类学习 vs AI学习:两条完全不同的路
关键洞察:人类和AI的学习机制完全不同,试图让AI模仿人类学习是错误的方向,人类从少量数据中学习是因为有亿万年进化赋予的先验知识,而AI必须从海量数据中重新发现这些规律。
人类学习的秘密:
• 进化的礼物:人类大脑是40亿年进化的产物,携带着巨量的先验知识,一个婴儿的大脑已经"知道"很多关于物理世界的规律
• 文化传承:25万年的文化积累让每个人站在巨人的肩膀上,语言、工具、知识体系都是压缩后的智慧传承
• 效率极高:正因为有这些基础,人类才能从少量样本中快速学习
AI的不同路径:
• 从零开始:LLM必须从原始数据中重新发现所有规律,就像重新进化一遍
• 规模优势:但AI可以同时处理海量数据,不受人类认知带宽限制
• 新的可能:这种不同可能让AI发现人类从未注意到的模式
四、AGI的经济影响:融入2%的GDP增长曲线
反直觉的预测:AGI不会带来经济奇点或爆炸式增长,而是会自然融入过去250年来稳定的2%人均GDP增长曲线,就像工业革命、电力、互联网一样,成为推动经济增长的又一个重要因素。
为什么不会有奇点:
• 物理世界的约束:经济增长最终受限于原子世界的物理规律,建工厂、造房子、运输货物都需要时间
• 人类需求的限制:人的需求增长是有限的,不会因为AI变强而突然想要100倍的商品
• 系统的惯性:经济系统有巨大惯性,新技术需要时间渗透到各个行业
真实的影响模式:
• AI会像之前的通用技术一样,逐步提高各行业生产力,但这种提升会被市场机制消化,体现为缓慢而稳定的增长
• 最大的变化可能是工作性质的转变,而不是财富的爆炸式增长
五、自动驾驶为什么这么难:Tesla经验的深刻教训
核心问题:自动驾驶之所以困难,不是因为驾驶本身很难,而是因为要处理无数的"长尾问题"(edge cases),真实世界的复杂性远超想象。
Tesla的进化历程:
• 第一代:基于规则的系统,工程师手写代码处理各种情况
• 第二代:深度学习接管感知,但决策仍基于规则
• 第三代:端到端神经网络,从传感器到控制全部由AI完成
为什么端到端才是正解:
• 人类驾驶是端到端的:看到情况→大脑处理→输出动作,中间没有"车道线检测""物体分类"等中间步骤
• 分模块系统的问题:信息在模块间传递会丢失,错误会累积,无法处理未预见的情况
• 端到端的优势:可以学习隐含的模式,自动优化整体性能,而不是局部最优
六、教育的未来:从"知识传递"到"智慧引导"
Karpathy的教育哲学:"教育是最有智力挑战的任务,因为你要把纠缠的知识解开,排列成一个坡道,让每一步只依赖前一步。"
优秀教育的要素:
• 激发动机:先展示痛点,再给出解决方案,让学习者理解"为什么需要这个知识"
• 循序渐进:从lookup table到transformer,每一步都有充分的动机,像从bigram开始教transformer,先用最简单的查找表,然后逐步添加复杂性
• 主动参与:在给出答案前让学习者先尝试,这样他们才能真正理解解决方案的价值
知识的诅咒:专家很难教好初学者,因为他们已经内化了太多"显而易见"的东西,解决方法是看初学者和ChatGPT的对话,了解他们真正的困惑点。
未来教育的形态:
• AI tutor将提供个性化教育,根据每个人的理解程度调整教学节奏
• 但人类教师仍然重要,因为教育不只是知识传递,还包括动机激发、情感支持、品格塑造
总结
Andrej Karpathy的核心观点是:我们不应该试图复制人类智能,而应该理解AI的独特路径。当前的LLM像是在"召唤"互联网知识的幽灵,而不是真正理解世界。通向AGI的路还很长,需要十年时间解决持续学习、多模态理解、系统性推理等根本问题。
但这不是悲观的预测,而是理性的规划。就像自动驾驶从规则系统evolve到端到端神经网络花了十年,AGI的实现也需要时间。而当它真正到来时,不会是科幻电影中的奇点爆炸,而是像历次工业革命一样,悄然融入人类文明的进步曲线。
最重要的是,我们需要重新思考教育。在AI时代,知识获取变得简单,但理解和创造仍然困难。未来的教育应该像Karpathy的课程一样,不是灌输事实,而是培养思考的方法。
QA:三个最核心的洞察
Q:为什么说当前的AI是在"召唤幽灵"而不是"构建动物"?
A:LLM的本质是在互联网文本中"发现"已存在的模式,就像考古学家挖掘化石。它们能够重现人类知识,但缺乏动物那样的主动学习和适应能力。一个20位数的乘法就能让最强大的LLM崩溃,因为互联网上没有这样的例子,而一个小学生通过算法就能解决。这揭示了当前AI的根本局限:它们是知识的搬运工,而不是智慧的创造者。
Q:为什么强化学习这条路走不通,整个行业都判断错了?
A:2013-2017年,包括OpenAI在内的顶级实验室都在用强化学习玩Atari游戏,希望通过这条路通向AGI。但Karpathy认为这是collective misstep,原因是强化学习就像让婴儿直接学微积分——没有基础表征能力,光靠试错永远学不会复杂任务。正确的路径是先通过大规模预训练获得语言理解能力(LLM),再在此基础上构建Agent。这个教训告诉我们:在AI发展中,顺序比努力更重要。
Q:AGI真的会带来经济奇点吗?
A:不会。Karpathy给出了反直觉但compelling的论证:过去250年,尽管有蒸汽机、电力、计算机等革命性技术,人均GDP增长始终稳定在2%左右。AGI也会遵循这个规律,因为经济增长最终受限于物理世界和人类需求。你不会因为AI变强就突然想要100倍的食物或衣服。AGI的真正影响不是财富爆炸,而是工作性质的根本改变——就像农民变成了程序员一样,我们都会找到新的创造价值的方式。 http://t.cn/AXw4fcbd
发布于 美国
