Andrej Karpathy发布大模型年度总结

AI圈排第一的KOL，履历和表达含金量都很高的Andrej Karpathy发了一篇年度总结，列出了2025年大模型行业最重要的6大技术成果，写得非常通俗易懂：

1、RLVR（可验证奖励强化学习）

今年以前，大模型的主流训练方案，就那三样——

- Pretraining（预训练），爬完全网数据，学会怎么预测；

- SFT（监督微调），找人给模型提供参考答案，推动过拟合；

- RLHF（人类反馈强化学习），模型生成多个答案，人类打分，让它开悟；

RLVR提供的新方案，是让模型去做存在标准答案的复杂数学题，得出结果后再去核对答案，通过这种明确的试错，模型开始演化出了推理能力。

而RLVR的普及，吞掉了今年的大多数算力消耗，并为使用者新增了「让模型思考更久一点」的质变按钮，OpenAI的o1开创了这条路线，到o3则是真正的拐点。

2、锯齿状的智能

今年开始意识到，大模型并不是智能生物，它更像是一种被召唤来的幽灵。

人类的智能，是为了在恶劣的自然环境里生存下来而持续进化的，但大模型的智能，是为了模仿人类说话、在做数学题时拿到奖励、为了在基准测试里考高分而设计的，所以这让大模型呈现出「薛定谔的聪明」——

一方面可以理解最难的奥数题，另一方面连一个单词里有几个r都数不清楚。

所以基准测试的意义确实不大了，所有公司都在刷题，甚至把训练都放在特定的数据集上，这么搞下去，AGI来不了。

3、Cursor

比这款产品的成功更有价值的是，今年有很多AI原生服务开始标榜自己是「xx行业的Cursor」，这意味着大模型在应用层的渗透已经开始了。

Cursor跑通的商业逻辑，是为垂直市场封装大模型这门生意，像一个产品经理的角色，负责把技术变成即插即用的生产力工具。

未来的搭配可能是这样的——大模型厂商负责教育出具有普遍能力的大学生，而Cursor这样的公司则负责把这些大学生培训成可上岗的实习生。

4、Claude Code

Claude Code是迄今为止最让人信服的Agent，它运行在本地设备里，理论上来说，你能用键盘和鼠标做什么事，它也能做到。

对比之下，我会认为OpenAI有点走偏了。

OpenAI太想把一切都塞到ChatGPT里了，以致于Codex、Agent等新技术都倾向于放到云端，而不考虑本地部署。

在通用对话框里完成一切当然很有AGI的感觉，但现实是，我们依然处在一个模型能力不算稳定、上下限差异巨大的中间时刻，端到端的智能体可能是更优解。

这不是说本地和云端哪边更好的问题，用户的数据仍然主要存放在本地——代码、密钥、上下文、生产环境这些——Anthropic搞对了优先级，把Claude Code放进了一个优雅的命令行界面里，摆脱了只能用浏览器访问的困境。

能干活的大模型，就应该变成这样的「田螺姑娘」。

5、Vibe Coding

这是我在推特上随口发明的一个词，没想到火得不行，此处应有掌声。

Vibe Coding让编程不再只是少数专业程序员的特权，任何不懂代码的人都能驾驭编程能力为己所用，这就叫「权力归于人民」。

和以前的技术革命不同，这一次，普通用户能从大模型里获得的益处要远远高于专业人士和大型公司，代码生产的廉价化，让我们实现了软件自由。

举个例子，我为了找一个Bug，专门通过Vibe Coding写了一个程序，而它在完成使命之后，就可以被扔掉了，像一张废弃的餐巾纸。

这会彻底动摇软件工程师的职位要求。

6、Nano Banana

你们都把Nano Banana当成一个牛逼的图片模型，但在我眼里，他是大模型「GUI化」的雏形，直接通向人类与AI交互的图形界面。

大模型基于语言文本，所以天然喜欢对话格式，但人类不是这样的，人类是爱发出「太长不看」这种怪叫声的生物，与费时费力的文本相比，我们更喜欢通过视觉消费信息。

这也是Dos被Windows取代的过程。

未来的大模型，会从自己的舒适区走出来，转而用人类喜闻乐见的格式来输出信息，比如图表、简报、动画、网页这些，Nano Banana是第一个把信息处理和图像表达融合起来的模型。

这是2025年最难以置信的标志性事件，没有之一。

总之，这是一波未平、一波又起的一年，大模型的能干和愚蠢都远超出了我的想象，这个行业连10%的潜能都还没有发掘出来，要做的事情还有很多，记得系好安全带。

发布于湖北