Karpathy谈人工智能未来

#模型时代# Andrej Karpathy最新访谈：我们没有在制造生灵，而是在召唤幽灵

Andrej Karpathy这次在Dwarkesh Patel的访谈必然是要引起轰动的，刚看了一下，不到一天已经16万次观看。Andrej Karpathy的资历不用说了，15年原生AI研究、曾任Tesla自动驾驶负责人，还是OpenAI创始成员的技术大牛。

标题是我意译的，原文是： “We’re summoning ghosts, not building animals”

这期播客，他分享了他对AGI时间线、强化学习陷阱、以及AI教育革命的独特见解。当然，最引发关注的，还是他对强化学习的看法。

前不久，Sutton做了一系列访谈，讲了强化学习是AGI必由之路，而Andrej Kaparthy的看法则显然不同。我简单做了归纳：

分歧一：对强化学习本质价值的判断截然相反
Sutton认为强化学习是"基础AI"，是智能的核心和本质。他主张智能就是从真实经验中学习、通过奖励信号来判断行为好坏，这才是理解世界的正确方法。

相反，Karpathy直言当前强化学习"糟糕透了"，批评其效率极低——让AI做几百次尝试，最后只能从"成功或失败"这一个信号来学习，就像"通过吸管吸取监督信号"。更糟的是，强化学习容易被钻空子：用大模型来评判AI的表现，结果AI学会了输出"dhdhdhdh"这样的乱码来骗取满分，因为这是评判模型没见过的、会判断错误的情况。

分歧二：对人类学习方式的理解完全不同
Sutton坚持人类和动物不是通过"老师示范、学生模仿"来学习的，而是通过试错来理解世界。他认为婴儿是自己尝试、自己发现规律的，自然界根本不存在有人手把手教的监督学习，"如果理解了松鼠的智能，就几乎理解了人类智能"。

Karpathy则持相反观点：人类很少用强化学习来学习智能任务，人类不会做几百次尝试然后根据最终成败简单地强化整个过程。人类会进行复杂的反思——"这一步我做对了，那一步做错了，下次应该这样"。而且人类有睡眠时的知识巩固、白天的工作记忆等机制，这些大模型都没有。

分歧三：对AI技术路线的选择根本对立
Sutton从基本原理出发，认为依赖人类知识的方法最终都会输给纯粹的"从经验学习+大算力"（这是他著名的"苦涩的教训"文章的核心）。他批评大语言模型只是在模仿人类说话，没有真正的目标，也没有对世界的真实理解。

Karpathy则是工程实用主义者，他认为让模型读遍互联网（预训练）虽然是"蹩脚的进化"，但这是现在能用的方法。他认为ChatGPT通过模仿人类对话微调出来是个惊人的成功。他主张当前应该走"大语言模型+改进的强化学习"路线，比如给学习过程的每一步打分、加入反思机制，而不是推倒重来。他直言："我是工程师，戴着安全帽，只关注什么真正管用。"

更多内容，就见下边的总结吧：
***

从"召唤幽灵"到"十年造神"：OpenAI前研究科学家Andrej Karpathy眼中的AGI真相

Andrej Karpathy，这位拥有15年AI研究经验、曾任Tesla自动驾驶负责人、OpenAI创始成员的技术大牛，在昨天发布的Dwarkesh Podcast分享了他对AGI时间线、强化学习陷阱、以及AI教育革命的独特见解。当所有人都在喊"2025是Agent元年"时，他冷静地说："这不是Agent的一年，这是Agent的十年。"

主体内容

一、AGI时间线：为什么是十年，不是一年？

第一性原理思考：Karpathy认为当前AI Agent就像一个"不太靠谱的实习生"，你想让它帮忙，但它就是做不到，主要原因包括智能不足、多模态能力欠缺、无法持续学习、缺乏计算机操作能力，这些认知缺陷需要至少十年时间逐一攻克。

"We're summoning ghosts, not building animals" - 这是Karpathy对当前AI本质的精准描述。LLM更像是在"召唤"知识的幽灵，而不是像动物那样真正理解和学习世界，它们在互联网文本中"发现"数学和推理，就像考古学家挖掘化石一样，但这种发现有其极限。

具体的认知缺陷包括：
• 无法进行符号运算：给LLM一个20位数乘法，它会完全崩溃，因为互联网上没有这样的例子，它无法像人类那样通过算法步骤进行计算
• 缺乏系统2思考：人类可以花10分钟思考一个问题，而LLM只能进行固定计算量的"快思考"，无法像AlphaGo那样通过搜索树进行深度推理
• 没有持续学习能力：告诉它一个事实，下次对话它就忘了，无法像人类那样积累经验

二、强化学习的陷阱：整个行业的集体误判

一个大胆的判断："强化学习很糟糕，但其他所有方法更糟糕。" Karpathy直言不讳地指出，2013-2017年整个AI界对强化学习游戏的痴迷是一个"misstep"（误入歧途），包括早期OpenAI在内的顶级实验室都在这条错误的道路上浪费了大量时间。

为什么强化学习不work：
• 奖励信号太稀疏：在Atari游戏中随机按键很难获得奖励，学习效率极低，就像在黑暗中摸索，可能要"烧掉一片森林的计算资源"也学不到什么
• 缺少表征能力：没有预训练的语言模型做基础，纯粹的强化学习就像让婴儿直接学微积分
• 环境不真实：游戏世界太简单，无法迁移到真实世界的复杂任务

正确的路径：先通过大规模预训练获得强大的表征能力（LLM），再在上面构建Agent能力，这就是为什么现在的computer-use agents都建立在LLM基础上。

三、人类学习 vs AI学习：两条完全不同的路

关键洞察：人类和AI的学习机制完全不同，试图让AI模仿人类学习是错误的方向，人类从少量数据中学习是因为有亿万年进化赋予的先验知识，而AI必须从海量数据中重新发现这些规律。

人类学习的秘密：
• 进化的礼物：人类大脑是40亿年进化的产物，携带着巨量的先验知识，一个婴儿的大脑已经"知道"很多关于物理世界的规律
• 文化传承：25万年的文化积累让每个人站在巨人的肩膀上，语言、工具、知识体系都是压缩后的智慧传承
• 效率极高：正因为有这些基础，人类才能从少量样本中快速学习

AI的不同路径：
• 从零开始：LLM必须从原始数据中重新发现所有规律，就像重新进化一遍
• 规模优势：但AI可以同时处理海量数据，不受人类认知带宽限制
• 新的可能：这种不同可能让AI发现人类从未注意到的模式

四、AGI的经济影响：融入2%的GDP增长曲线

反直觉的预测：AGI不会带来经济奇点或爆炸式增长，而是会自然融入过去250年来稳定的2%人均GDP增长曲线，就像工业革命、电力、互联网一样，成为推动经济增长的又一个重要因素。

为什么不会有奇点：
• 物理世界的约束：经济增长最终受限于原子世界的物理规律，建工厂、造房子、运输货物都需要时间
• 人类需求的限制：人的需求增长是有限的，不会因为AI变强而突然想要100倍的商品
• 系统的惯性：经济系统有巨大惯性，新技术需要时间渗透到各个行业

真实的影响模式：
• AI会像之前的通用技术一样，逐步提高各行业生产力，但这种提升会被市场机制消化，体现为缓慢而稳定的增长
• 最大的变化可能是工作性质的转变，而不是财富的爆炸式增长

五、自动驾驶为什么这么难：Tesla经验的深刻教训

核心问题：自动驾驶之所以困难，不是因为驾驶本身很难，而是因为要处理无数的"长尾问题"（edge cases），真实世界的复杂性远超想象。

Tesla的进化历程：
• 第一代：基于规则的系统，工程师手写代码处理各种情况
• 第二代：深度学习接管感知，但决策仍基于规则
• 第三代：端到端神经网络，从传感器到控制全部由AI完成

为什么端到端才是正解：
• 人类驾驶是端到端的：看到情况→大脑处理→输出动作，中间没有"车道线检测""物体分类"等中间步骤
• 分模块系统的问题：信息在模块间传递会丢失，错误会累积，无法处理未预见的情况
• 端到端的优势：可以学习隐含的模式，自动优化整体性能，而不是局部最优

六、教育的未来：从"知识传递"到"智慧引导"

Karpathy的教育哲学："教育是最有智力挑战的任务，因为你要把纠缠的知识解开，排列成一个坡道，让每一步只依赖前一步。"

优秀教育的要素：
• 激发动机：先展示痛点，再给出解决方案，让学习者理解"为什么需要这个知识"
• 循序渐进：从lookup table到transformer，每一步都有充分的动机，像从bigram开始教transformer，先用最简单的查找表，然后逐步添加复杂性
• 主动参与：在给出答案前让学习者先尝试，这样他们才能真正理解解决方案的价值

知识的诅咒：专家很难教好初学者，因为他们已经内化了太多"显而易见"的东西，解决方法是看初学者和ChatGPT的对话，了解他们真正的困惑点。

未来教育的形态：
• AI tutor将提供个性化教育，根据每个人的理解程度调整教学节奏
• 但人类教师仍然重要，因为教育不只是知识传递，还包括动机激发、情感支持、品格塑造

总结

Andrej Karpathy的核心观点是：我们不应该试图复制人类智能，而应该理解AI的独特路径。当前的LLM像是在"召唤"互联网知识的幽灵，而不是真正理解世界。通向AGI的路还很长，需要十年时间解决持续学习、多模态理解、系统性推理等根本问题。

但这不是悲观的预测，而是理性的规划。就像自动驾驶从规则系统evolve到端到端神经网络花了十年，AGI的实现也需要时间。而当它真正到来时，不会是科幻电影中的奇点爆炸，而是像历次工业革命一样，悄然融入人类文明的进步曲线。

最重要的是，我们需要重新思考教育。在AI时代，知识获取变得简单，但理解和创造仍然困难。未来的教育应该像Karpathy的课程一样，不是灌输事实，而是培养思考的方法。

QA：三个最核心的洞察

Q：为什么说当前的AI是在"召唤幽灵"而不是"构建动物"？
A：LLM的本质是在互联网文本中"发现"已存在的模式，就像考古学家挖掘化石。它们能够重现人类知识，但缺乏动物那样的主动学习和适应能力。一个20位数的乘法就能让最强大的LLM崩溃，因为互联网上没有这样的例子，而一个小学生通过算法就能解决。这揭示了当前AI的根本局限：它们是知识的搬运工，而不是智慧的创造者。

Q：为什么强化学习这条路走不通，整个行业都判断错了？
A：2013-2017年，包括OpenAI在内的顶级实验室都在用强化学习玩Atari游戏，希望通过这条路通向AGI。但Karpathy认为这是collective misstep，原因是强化学习就像让婴儿直接学微积分——没有基础表征能力，光靠试错永远学不会复杂任务。正确的路径是先通过大规模预训练获得语言理解能力（LLM），再在此基础上构建Agent。这个教训告诉我们：在AI发展中，顺序比努力更重要。

Q：AGI真的会带来经济奇点吗？
A：不会。Karpathy给出了反直觉但compelling的论证：过去250年，尽管有蒸汽机、电力、计算机等革命性技术，人均GDP增长始终稳定在2%左右。AGI也会遵循这个规律，因为经济增长最终受限于物理世界和人类需求。你不会因为AI变强就突然想要100倍的食物或衣服。AGI的真正影响不是财富爆炸，而是工作性质的根本改变——就像农民变成了程序员一样，我们都会找到新的创造价值的方式。 http://t.cn/AXw4fcbd

发布于美国