阑夕 25-12-20 16:03
微博认证:逐鹿网(www.zhulu.com)创始人 长文原创作者 2024微博年度新知博主

AI圈排第一的KOL,履历和表达含金量都很高的Andrej Karpathy发了一篇年度总结,列出了2025年大模型行业最重要的6大技术成果,写得非常通俗易懂:

1、RLVR(可验证奖励强化学习)

今年以前,大模型的主流训练方案,就那三样——

- Pretraining(预训练),爬完全网数据,学会怎么预测;

- SFT(监督微调),找人给模型提供参考答案,推动过拟合;

- RLHF(人类反馈强化学习),模型生成多个答案,人类打分,让它开悟;

RLVR提供的新方案,是让模型去做存在标准答案的复杂数学题,得出结果后再去核对答案,通过这种明确的试错,模型开始演化出了推理能力。

而RLVR的普及,吞掉了今年的大多数算力消耗,并为使用者新增了「让模型思考更久一点」的质变按钮,OpenAI的o1开创了这条路线,到o3则是真正的拐点。

2、锯齿状的智能

今年开始意识到,大模型并不是智能生物,它更像是一种被召唤来的幽灵。

人类的智能,是为了在恶劣的自然环境里生存下来而持续进化的,但大模型的智能,是为了模仿人类说话、在做数学题时拿到奖励、为了在基准测试里考高分而设计的,所以这让大模型呈现出「薛定谔的聪明」——

一方面可以理解最难的奥数题,另一方面连一个单词里有几个r都数不清楚。

所以基准测试的意义确实不大了,所有公司都在刷题,甚至把训练都放在特定的数据集上,这么搞下去,AGI来不了。

3、Cursor

比这款产品的成功更有价值的是,今年有很多AI原生服务开始标榜自己是「xx行业的Cursor」,这意味着大模型在应用层的渗透已经开始了。

Cursor跑通的商业逻辑,是为垂直市场封装大模型这门生意,像一个产品经理的角色,负责把技术变成即插即用的生产力工具。

未来的搭配可能是这样的——大模型厂商负责教育出具有普遍能力的大学生,而Cursor这样的公司则负责把这些大学生培训成可上岗的实习生。

4、Claude Code

Claude Code是迄今为止最让人信服的Agent,它运行在本地设备里,理论上来说,你能用键盘和鼠标做什么事,它也能做到。

对比之下,我会认为OpenAI有点走偏了。

OpenAI太想把一切都塞到ChatGPT里了,以致于Codex、Agent等新技术都倾向于放到云端,而不考虑本地部署。

在通用对话框里完成一切当然很有AGI的感觉,但现实是,我们依然处在一个模型能力不算稳定、上下限差异巨大的中间时刻,端到端的智能体可能是更优解。

这不是说本地和云端哪边更好的问题,用户的数据仍然主要存放在本地——代码、密钥、上下文、生产环境这些——Anthropic搞对了优先级,把Claude Code放进了一个优雅的命令行界面里,摆脱了只能用浏览器访问的困境。

能干活的大模型,就应该变成这样的「田螺姑娘」。

5、Vibe Coding

这是我在推特上随口发明的一个词,没想到火得不行,此处应有掌声。

Vibe Coding让编程不再只是少数专业程序员的特权,任何不懂代码的人都能驾驭编程能力为己所用,这就叫「权力归于人民」。

和以前的技术革命不同,这一次,普通用户能从大模型里获得的益处要远远高于专业人士和大型公司,代码生产的廉价化,让我们实现了软件自由。

举个例子,我为了找一个Bug,专门通过Vibe Coding写了一个程序,而它在完成使命之后,就可以被扔掉了,像一张废弃的餐巾纸。

这会彻底动摇软件工程师的职位要求。

6、Nano Banana

你们都把Nano Banana当成一个牛逼的图片模型,但在我眼里,他是大模型「GUI化」的雏形,直接通向人类与AI交互的图形界面。

大模型基于语言文本,所以天然喜欢对话格式,但人类不是这样的,人类是爱发出「太长不看」这种怪叫声的生物,与费时费力的文本相比,我们更喜欢通过视觉消费信息。

这也是Dos被Windows取代的过程。

未来的大模型,会从自己的舒适区走出来,转而用人类喜闻乐见的格式来输出信息,比如图表、简报、动画、网页这些,Nano Banana是第一个把信息处理和图像表达融合起来的模型。

这是2025年最难以置信的标志性事件,没有之一。

总之,这是一波未平、一波又起的一年,大模型的能干和愚蠢都远超出了我的想象,这个行业连10%的潜能都还没有发掘出来,要做的事情还有很多,记得系好安全带。

发布于 湖北