2025年AI技术关键突破分析

#2025科技年度热问# 谢@微博科技邀请，参与年度话题。人在北京，并没有刚下飞机。拖延症患者，卡点交作业 [揣手]

我一边写，一边就在想，大模型的进化速度真的太快了，毫无减速迹象。想想，DeepSeek R1和OpenAI Sora发布才过去多久，但似乎已经是古典AI产品了。只是因为我们身在其中，才会有时候觉得AI进化速度不够快吧。把时间倒回去10年前，我是真想不到10年后，AI会通过图灵测试啊。

言归正传，抓紧回答一下三个年度热问：

Q1：2025年，推动AI进入下一阶段的关键突破是什么？

我觉得是两个接力棒。记得去年这个时候吧，伊利亚在NeurIPS 2024上讲Scaling Law遇墙，一时间不少人对大模型的前途就悲观起来了。但是一年过去了，一方面，虽然预训练的效果不明显了，但是显然还没有到头。刚才杨植麟的内部信，也提到接下来要把AI等效算力提一个数量级。另一方面，推理计算、强化学习这两个血包，给大模型续上了。

当然，对于推理计算，大家没有争议。但是强化学习能把模型带多远，还是观点不一的。伊利亚认为，强化学习提升了模型的专业能力，但是可能让模型的通用性变差。我对此是深有体会的，Gemini 3.0出来后，叫好声一片。我也同意这个版本在Coding等方面有大幅提升，但是说到写作，我的感觉是反而下降了。但是就像Andrej Karpathy所说：强化学习很"糟"，但是别的方法更糟。所以RL还是今年的一大法宝，这绝对要算R1在春节发布的一大功劳，话说R2不会也在春节发布吧？

Q2：2025年有哪些AI产品真正让我感到眼前一亮？

今年让我眼前一亮的产品又来自Anthropic。去年是MCP，今年是Skill。这东西有争议，看不上的同学说它只是一个MD文件，但我不这么看。

不太有争议的是，今年可以看作Agent元年。但是对于多数人而言，Agent其实是只闻其声，不见其人的。但是Skill让Agent落地的门槛降了一大截。对于任何普通人，只要你有一套成熟的工作流，和趁手的提示词，就可以做一个Skill，大大简化工作，大大提升效率。虽说Skill离完整版的Agent还有距离，但是谁说工作流自动化不能叫Agent呢？

另外两个眼前一亮的，自然是今年3月的GPT-4o和今年8月的Nano Banana文生图了。两者分别因为宫崎骏动画风格和3D手办狠狠刷了一波流量，日本漫画虽然已经显出颓势，但是却为大模型的病毒传播贡献了洪荒之力。

说到Nano Banana，还得提一下它和NotebookLM的梦幻联动。一个是基于理解的生图，一个是基于知识的笔记，10月合体之后，NotebookLM的Video Overview可以根据你上传的文档，自动生成有语境的插图。不是套模板，是真的"读懂了再画"。Google这波，把多模态的想象力落地了。

说句题外话：作为Jojo爱好者，我也为《鬼灭之刃》贡献了电影票，狠狠为《灵笼》点赞，追了《石纪元》的最新一季。

Q3：展望2026，哪个趋势是不可忽视的必然路径？

1、强化学习
虽然我刚才说了一些强化学习的坏话，但是这一路线必然要大踏步发展的。原因之一是：RL现在又和Agent结合到一起了，而Agent在企业环境中，能力很可能会偏专用，所以和强化学习有双向奔赴的味道。

2、多模态
这毫无疑问是兵家必争之地。现在大模型更多进入真实世界已经是一个必然，而在真实世界中，人类之间更多的交互，语言只占其中一部分啊，语音视觉是非常大一部分比重。不过，我最看好的多模态方向，还不是AIGC类的，而是图表类信息。

很诡异的一个现象是，人类因为不喜欢读大段文字，为了更好传播和理解信息，发明了PPT和信息图。但是这些曲线、图表、流程图，成了大模型最难读懂的信息形式。即使按照Anthropic的路线，AGI未必需要世界模型，但读懂人类更多的知识，还是绕不开的。所以，我期待一个能做PPT的LLM，更期待一个能看懂PPT的LLM，这样它就能替我开很多会了。

3、持续学习
哈萨比斯说，面向AGI，我们还差一两个拼图，而持续学习就是其中之一。和人类类比，模型的学习能力太固化了。预训练之后，参数一固定，就像一出生就是参天大树，但也就是参天大树了。但是人类则是有持续学习能力。所以，我觉得大模型接下来最需要具备的能力就是"睡觉"，不是几个月一个训练轮次，也不是几个星期一次，而是一天就能刷新一次参数。这显然需要算力、算法的大踏步创新。我不觉得2026年能搞定，但作为一个期待吧。

4、One more thing
桌面AI计算机，可能不是现在主流关注的重点，但我觉得以后会很主流。任何事物流行起来，必然会有一个能让人把玩的设备。虽说大家现在还是用云端AI更多，但是AI算力效率在提升，模型量化蒸馏技术在成熟，剪刀差之下，每个人一台AI计算机可能并不遥远。我们团队小伙伴今年评测了英伟达DGX Spark等很多设备，一定不能说完美，但是可玩性很高。

最后，原则上，我要圈一些微博好友了。认真的，我觉得微博最有价值的一点，就是它的广场感。有了转发、留言，才让我们能在信息茧房时代听到不同的看法和声音。不过我觉得我要圈的人可能太多了，感觉怎么都会漏人，圆滑的我决定……所以，感谢每一位关注我、互动过的朋友，何德何能，能和大家隔网言欢。引用一下JoJo的名言，也是我的微博介绍，模型时代，我们都是替身使者，替身使者，总是会相互吸引。

嗯，要不，我还是圈一个朋友吧，@成一虫，我和他认识超过十年，但是居然从没见过面。他是投资专家，离AI圈很远。圈他的原因是，他是AI冷静派，我无数条吹捧AI帖子的下边，都有他的留言，如：这有啥，这不就是搜索，AI不用大力发展，损害就业。所以我把他作为AGI指标，啥时候他说AI很牛了，AGI应该就实现了。（成兄不要怪我）

发布于韩国