这期张小珺对杨植麟的访谈也是力荐,提出了很多好问题,也有非常精彩的回复。这种高质量的一线模型 CEO 的访谈不多见的。
挑几个我关心的问题整理一下。
** 过去一年 AI 范式级的变化:
1. 长思考的推理模型(Reasoning Model),以o1作为第一个做出来的代表。
2. 另一个很重要的范式,就是基于多轮的Agent(智能体)强化学习范式,或者通过强化学习技术训练出来的Agentic模型,它的特点是会跟外界做很多交互。
这两个东西都指向了同一个东西,是:test-time scaling(测试时扩展)。意思是,可以在测试时,或者在推理时,做到更好的规模化。
** 一个很有意思的趋势是模型公司直接下场做 Agent 产品
模型公司自己控制上下文环境、工具接口、prompt结构等,也就是自己当“使用方”,而不再只是给别人提供模型API。
像 Manus 这样的第三方公司需要通过逆向工程去逆向这个模型的训练过程,找到最适合模型的工具、提示词。而模型公司自己做,就像 Anthropic 做 Claude Code,不再需要逆向的过程,更多是正向的做法:先把这些工具设计好,把Context Engineering(上下文工程)的方法都设计好,然后就在 Claude Code 使用环境里训练模型,所以模型天然在 Claude Code 的使用环境里表现更好。
这是两种不同思路,但第二种思路上限也许更高。
** AI 的分级
L1是Chatbot(聊天机器人),L2是Reasoner(推理者),L3是Agent(智能体),L4是Innovator(创新者),L5是Organizer(组织者)。
Innovation(L4)的标志是模型自我迭代,Organization(L5)会是一个 Multi-Agent(多智能体)系统。
** AGI 不是一个重点,它是一个方向。
** 2024到2025年的关键决策:
1. 技术上从以预训练和SFT(Supervised Fine-Tuning,监督微调)为重点研发范式,转变成以预训练和强化学习为重点的方式。
2. 从对话到Agent
> 有人说,Kimi是从最初想做“中国的OpenAI”,转而想做“中国的Anthropic”。
** 高质量的数据增长缓慢,多模态无法提升文本本身的智商
高质量数据接近一个常数。这种情况下,希望能最大化地使用每一份数据,就是所谓的token efficiency(token效率)。希望在吃下一样多数据的情况下,脑子能长得更多,能得到更多智能。
** Agent最重要的特征,就是它可以多轮地使用工具。
Agent有两个关键点:一个是多轮,一个是工具。多轮就是你能做很多次,是test time scaling(测试时扩展)的一种方式;工具则是连接这个“脑”跟外部世界的方式。
** Coding Agent(编程智能体)是通用Agent(通用智能体)的一个子集,但可能是很重要的一个子集。
Coding Agent是很重要的一个子集在于,它代表了数字世界的自动化。但并不是做了Coding Agent就足够。因为很多非程序员也会用Claude Code完成任务,比如律师、产品经理、设计师,他们用Claude Code是因为模型在一定程度上有泛化能力,不仅仅是写代码。
** 模型即产品
你做一个Agent产品,需要把模型跟工具和Context结合起来。但你会发现,训练模型的时候,基本得把这一整套系统搭好,才能训练这个模型。
模型训练完成,产品也基本完成了。在这个基础上做一些交互上的改进当然有价值,但那是锦上添花的一步。
你的模型性能在训练中已经打磨好,跟工具和环境有非常好的适配——也就是,产品是在训练过程中完成的。
** 往文本模型里加多模态能力会损伤文本模型的智力
多模态的能力本身要做好不容易。里面有很多工作:怎么让它去借鉴文本的脑子,而不是自己单开一个脑子。比如你MoE(专家混合,Mixture of Experts)里假设有20个expert(专家),专门在做多模态,你可能不希望这种情况出现——这样,你可能学出来的多模态是个“傻的多模态”。
** 模型升级会诞生新的交互
两年前看,Chat是一种新的交互方式。现在Agent,有很多新的交互方式,比如你让它异步执行一个任务,可以看中间结果。
你看Coding,一开始是Copilot,之后有Cursor,再之后有Claude Code——每一代的交互都发生了变化,交互是随着模型的变化而变化。
当你有新一代模型,能力提升很多,就会发现交互可以改了。你不再需要一个一个点accept(接受)修改,而是多步执行一个Agentic Coding任务。
** Scaling Law遇到数据墙了,这是客观事实。
要突破数据墙,就需要提高token efficiency。数据墙是存在的,同时你要scale(扩展)更多算力到各种RL任务上。但模型变好的速度并没有减少,甚至在加速。
** 接下来的重要技术里程碑
1. Agent的泛化性
2. 长上下文的支持
** 基座模型公司和做Agent产品的应用公司的边界在于工具
工具的实现需要非常多领域的know-how,或者evaluation是模型公司的“一方产品”考虑不过来的东西,是有机会的。
** 模型公司目前明确的商业模式:一是API服务,二是“一方产品”。
** 管理一个团队要用RL(强化学习)的方式去管理,而不是用SFT(监督微调)。
SFT是你告诉他“这个事情该这样、这样做”;
RL是你给他一个奖励,如果做成这样是好的,更多反映在目标上。
要以RL为主,用一部分SFT通过先验去控制,或者防止它遗忘重要的东西。RL是一种很本质的东西。在科研、模型训练、组织管理上,是相通的。
但这也带来一个挑战:在RL过程中,怎么定义reward(奖励)。你简单设定一个目标,比如“把所有Benchmark拉高”,大家会不择手段去overfit指标。但分数高了,模型本身并没有真的更好。
所以,奖励的定义就很重要,需要你很理解具体细节是怎么运作的。不然会出现reward hacking(奖励机制被滥用)。
用RL管理团队最大问题是,你容易被hack。大家看起来各种结果很好,但实际并没有达到你最终想要的——这是风险。用SFT管理团队的风险,是大家失去创造力。最后这几个东西要有一定程度的balance(平衡)。
** AI产品的增长和获客更依赖模型能力的大幅跃升,在AI技术快速发展的阶段,你很难通过市场推广的方式去赢得战争。它更多是一个辅助手段。
文字版:http://t.cn/AXvYAtxA
视频:http://t.cn/AXv83GQZ
发布于 美国
