杨植麟访谈解析AI技术趋势

这期张小珺对杨植麟的访谈也是力荐，提出了很多好问题，也有非常精彩的回复。这种高质量的一线模型 CEO 的访谈不多见的。

挑几个我关心的问题整理一下。

** 过去一年 AI 范式级的变化：
1. 长思考的推理模型（Reasoning Model），以o1作为第一个做出来的代表。
2. 另一个很重要的范式，就是基于多轮的Agent（智能体）强化学习范式，或者通过强化学习技术训练出来的Agentic模型，它的特点是会跟外界做很多交互。

这两个东西都指向了同一个东西，是：test-time scaling（测试时扩展）。意思是，可以在测试时，或者在推理时，做到更好的规模化。

** 一个很有意思的趋势是模型公司直接下场做 Agent 产品

模型公司自己控制上下文环境、工具接口、prompt结构等，也就是自己当“使用方”，而不再只是给别人提供模型API。

像 Manus 这样的第三方公司需要通过逆向工程去逆向这个模型的训练过程，找到最适合模型的工具、提示词。而模型公司自己做，就像 Anthropic 做 Claude Code，不再需要逆向的过程，更多是正向的做法：先把这些工具设计好，把Context Engineering（上下文工程）的方法都设计好，然后就在 Claude Code 使用环境里训练模型，所以模型天然在 Claude Code 的使用环境里表现更好。

这是两种不同思路，但第二种思路上限也许更高。

** AI 的分级

L1是Chatbot（聊天机器人），L2是Reasoner（推理者），L3是Agent（智能体），L4是Innovator（创新者），L5是Organizer（组织者）。

Innovation（L4）的标志是模型自我迭代，Organization（L5）会是一个 Multi-Agent（多智能体）系统。

** AGI 不是一个重点，它是一个方向。

** 2024到2025年的关键决策：
1. 技术上从以预训练和SFT（Supervised Fine-Tuning，监督微调）为重点研发范式，转变成以预训练和强化学习为重点的方式。
2. 从对话到Agent

> 有人说，Kimi是从最初想做“中国的OpenAI”，转而想做“中国的Anthropic”。

** 高质量的数据增长缓慢，多模态无法提升文本本身的智商
高质量数据接近一个常数。这种情况下，希望能最大化地使用每一份数据，就是所谓的token efficiency（token效率）。希望在吃下一样多数据的情况下，脑子能长得更多，能得到更多智能。

** Agent最重要的特征，就是它可以多轮地使用工具。
Agent有两个关键点：一个是多轮，一个是工具。多轮就是你能做很多次，是test time scaling（测试时扩展）的一种方式；工具则是连接这个“脑”跟外部世界的方式。

** Coding Agent（编程智能体）是通用Agent（通用智能体）的一个子集，但可能是很重要的一个子集。

Coding Agent是很重要的一个子集在于，它代表了数字世界的自动化。但并不是做了Coding Agent就足够。因为很多非程序员也会用Claude Code完成任务，比如律师、产品经理、设计师，他们用Claude Code是因为模型在一定程度上有泛化能力，不仅仅是写代码。

** 模型即产品
你做一个Agent产品，需要把模型跟工具和Context结合起来。但你会发现，训练模型的时候，基本得把这一整套系统搭好，才能训练这个模型。

模型训练完成，产品也基本完成了。在这个基础上做一些交互上的改进当然有价值，但那是锦上添花的一步。

你的模型性能在训练中已经打磨好，跟工具和环境有非常好的适配——也就是，产品是在训练过程中完成的。

** 往文本模型里加多模态能力会损伤文本模型的智力
多模态的能力本身要做好不容易。里面有很多工作：怎么让它去借鉴文本的脑子，而不是自己单开一个脑子。比如你MoE（专家混合，Mixture of Experts）里假设有20个expert（专家），专门在做多模态，你可能不希望这种情况出现——这样，你可能学出来的多模态是个“傻的多模态”。

** 模型升级会诞生新的交互
两年前看，Chat是一种新的交互方式。现在Agent，有很多新的交互方式，比如你让它异步执行一个任务，可以看中间结果。

你看Coding，一开始是Copilot，之后有Cursor，再之后有Claude Code——每一代的交互都发生了变化，交互是随着模型的变化而变化。

当你有新一代模型，能力提升很多，就会发现交互可以改了。你不再需要一个一个点accept（接受）修改，而是多步执行一个Agentic Coding任务。

** Scaling Law遇到数据墙了，这是客观事实。

要突破数据墙，就需要提高token efficiency。数据墙是存在的，同时你要scale（扩展）更多算力到各种RL任务上。但模型变好的速度并没有减少，甚至在加速。

** 接下来的重要技术里程碑
1. Agent的泛化性
2. 长上下文的支持

** 基座模型公司和做Agent产品的应用公司的边界在于工具
工具的实现需要非常多领域的know-how，或者evaluation是模型公司的“一方产品”考虑不过来的东西，是有机会的。

** 模型公司目前明确的商业模式：一是API服务，二是“一方产品”。

** 管理一个团队要用RL（强化学习）的方式去管理，而不是用SFT（监督微调）。
SFT是你告诉他“这个事情该这样、这样做”；
RL是你给他一个奖励，如果做成这样是好的，更多反映在目标上。

要以RL为主，用一部分SFT通过先验去控制，或者防止它遗忘重要的东西。RL是一种很本质的东西。在科研、模型训练、组织管理上，是相通的。

但这也带来一个挑战：在RL过程中，怎么定义reward（奖励）。你简单设定一个目标，比如“把所有Benchmark拉高”，大家会不择手段去overfit指标。但分数高了，模型本身并没有真的更好。

所以，奖励的定义就很重要，需要你很理解具体细节是怎么运作的。不然会出现reward hacking（奖励机制被滥用）。

用RL管理团队最大问题是，你容易被hack。大家看起来各种结果很好，但实际并没有达到你最终想要的——这是风险。用SFT管理团队的风险，是大家失去创造力。最后这几个东西要有一定程度的balance（平衡）。

** AI产品的增长和获客更依赖模型能力的大幅跃升，在AI技术快速发展的阶段，你很难通过市场推广的方式去赢得战争。它更多是一个辅助手段。

文字版：http://t.cn/AXvYAtxA
视频：http://t.cn/AXv83GQZ

发布于美国