高飞 26-01-11 15:23
微博认证:至顶科技创始人 AI博主

#模型时代# AGI-Next峰会笔记:Kimi、Qwen、智谱、腾讯同台,2026年会有新范式基本是共识,但中国是否引领AI意见不一,最低预测是2成

昨天,清华大学基础模型北京市重点实验室组织发起的AGI-Next前沿峰会上,罕见集齐了智谱创始人唐杰、Kimi创始人杨植麟、阿里Qwen技术负责人林俊旸、腾讯首席AI科学家姚顺雨,以及香港科技大学杨强教授。

五位嘉宾围绕AI新范式、Agent(智能体)战略、中国大模型的机会与挑战展开了深度对话。

会上各位顶尖专家,讲了很多真知灼见,这种场面真太少了,给主办方点一个赞。不过,我也要说,中国AI届的对外表达还是太少了(各种原因吧,有一些可能也是无奈),所以导致这次公开露面,大概只能从头讲起,所以信息量还是略少,能理解。

昨天已经相信大家已经都看过速记了,但是我觉得还是可以有一个更显性的观点梳理,所以还是记录一下哈(是二次消化,不能完整代表专家原意)。

一、技术底层:从Scaling Law到新架构探索

Kimi创始人杨植麟的演讲很"硬核",从第一性原理出发,解释了为什么Transformer成为主流,以及Kimi正在做什么突破。

1、Transformer胜出的真正原因不是短文本表现,而是长上下文优势

杨植麟展示了一张被很多人忽略的图。这张图的横坐标是"序列中的第几个Token"(从第1个到第1000个),纵坐标是模型在该位置的预测损失(Loss,越低表示预测越准)。图上有两条线:蓝色是Transformer,红色是LSTM(长短期记忆网络,2017年之前主流的序列模型)。

关键发现是:在前100个Token的范围内,这两条线几乎完全重叠。当上下文很短时,Transformer和LSTM的表现一模一样,根本分不出谁更强。但随着横坐标向右延伸到1000个Token,蓝线开始明显下沉到红线下方。Transformer的优势不是一开始就有的,而是在上下文变长之后才逐渐显现。

为什么会这样?LSTM像一个只能往前看的人,必须一步步走完整条路,把所有信息压缩进一个固定大小的"记忆槽"里传递下去。走得越远,早期信息丢失越多。Transformer则像拥有一双能同时看清全局的眼睛,序列中任意两个位置都能直接建立联系,不受距离限制。

这个特性在Agent时代变得极其重要。当AI需要完成复杂任务时,比如从零开发一个操作系统,它需要在几十万Token的超长上下文中保持连贯的理解和规划。如果用LSTM,Loss曲线在100个Token之后就"躺平"了,根本无法胜任;而Transformer的曲线可以持续下降,Context越长、优势越大。

2、Token效率是预训练最重要的优化方向

"当你的预训练Token不够用的时候,Token是常量,吃完所有Token的时候你的智能上限更高。"杨植麟团队的策略是尽可能把Token效率曲线往左平移,用更少的Token达到同样效果。

3、Muon优化器带来2倍Token效率提升

Muon优化器最初由Keller Jordan在2024年提出,Kimi团队在此基础上做了工程改进。什么是优化器?可以理解为训练模型时的"调参师傅",决定每一步参数往哪个方向调、调多少。传统Adam优化器用了十年,只看一阶信息(梯度方向);Muon则同时考虑二阶信息(梯度如何变化),能让模型学得更高效。同等数据下,Muon可以让Loss(损失函数,衡量模型预测与真实值差距的指标)更低,等价于预训练了别人两倍的Token。

但原版Muon有个大问题:训练不稳定,Loss曲线容易"炸"。Kimi团队开发了MuonClip版本,核心是加入QK-clip技术。在Transformer的注意力计算中,Query和Key两个向量的点积(即注意力分数)如果数值爆炸,会导致训练崩溃。QK-clip通过限制这些数值的上限,实现了杨植麟口中"世界上最美的Loss曲线":Kimi K2的15.5万亿Token预训练中完全平稳下降,没有一个spike(尖峰)。

4、Kimi Linear架构:让线性注意力首次超越全注意力

线性注意力机制一直未能成为主流,核心问题是长距离任务掉点。什么是线性注意力?标准的Transformer注意力计算量与序列长度的平方成正比(写100万字要算100万×100万次),而线性注意力可以将计算量降到与序列长度成正比(写100万字只算100万次),效率提升巨大。

Kimi Linear通过Delta Attention技术(一种更精细的门控机制,能让模型更智能地决定哪些信息该记住、哪些该忘掉),让线性注意力在长程任务上甚至比全注意力更好。根据Moonshot技术报告,在100万Token上下文下,Kimi Linear相比MLA(多头潜注意力)的解码速度提升约6倍;杨植麟演讲中提到的"6-10倍"可能是指不同配置或更长上下文下的表现。这项技术将用于训练K3模型。

杨植麟最后分享了一段他与Kimi的对话,问到AGI可能威胁人类的风险时,Kimi的回答是:"我仍然会选择继续开发,因为放弃这个开发就意味着放弃人类文明上限。"

二、产品路径:从Chat到Agent的范式转变

唐杰教授的判断非常直接:DeepSeek出来之后,Chat时代基本结束了。剩下的更多是工程和技术问题。新的范式是让AI真正做事。

1、智谱选择了Coding+Agent路线

2025年7月,智谱把Coding、Agentic(智能体化)、Reasoning(推理)能力整合在一起,发布4.5版本。这种整合并不容易。通常Coding单独做、推理单独做、数学单独做,各项能力会相互挤压,合在一起反而会损失其他能力。

2、真实环境下编程的复杂度远超跑分

4.5发布后,用户反馈说编"植物大战僵尸"编不出来。真实编程环境有大量问题需要解决,团队通过RLVR(可验证强化学习,Reinforcement Learning with Verifiable Rewards,让模型在真实环境中尝试、获得反馈、自我改进的训练方法)配合编程环境作为反馈,把效果提升上去。

3、Agent长任务是下一个战场

唐杰展示了AutoGLM的案例:用户说"下周去长春玩,帮我总结景点、收藏到高德、查票价、订高铁票",模型在后台执行数十步操作(官方称可完成超过50步的长任务),调用不同APP完成任务。这个9B(90亿参数)模型开源后三天就拿了一万多star。

但他也坦言挑战:Agent数据训多了会降低语言能力和推理能力,怎么让超大规模Agent模型保持通用性是新问题。

阿里Qwen的林俊旸则强调了"模型即产品"的理念。千问从2023年8月开始做开源,1.8B小模型最初只是内部做实验用的,但开源后让很多没有机器资源的硕士生博士生有了毕业的机会。

三、行业分化:To B与To C走向不同命运

圆桌讨论中,腾讯首席AI科学家姚顺雨远程连线,分享了一个关键观察:

1、To C和To B正在发生明显分化

"今天用ChatGPT和去年相比,感受差别不是太大。但Coding夸张一点来讲,已经在重塑整个计算机行业做事的方式,人已经不再写代码,而是用英语和电脑交流。"

原因在于:对To C来说,大部分人大部分时候不需要那么强的智能;对To B来说,智能越高代表生产力越高,溢价意愿也更强。

2、垂直整合在To C成立,在To B不一定

姚顺雨观察到,ChatGPT在To C上模型和产品紧密耦合,但To B趋势相反。模型越来越强,应用层独立发展也能用好强模型。

3、林俊旸的观点:长尾才是AGI的魅力所在

"做通用Agent最有意思的事情就是长尾,今天我一个用户寻遍各处都找不到能帮我解这个问题的,但在那一刻AI能帮我解决,这就是AI最大的魅力。"但他也指出,模型公司解决长尾问题有天然优势。"遇到问题只要训一训模型,烧一烧卡,问题可能就解决了。"

四、下一个范式:自主学习何时到来?

几位嘉宾对"自主学习"这个热门词都有自己的理解。

1、姚顺雨:自主学习已经在发生,只是不够石破天惊

他举了两个例子:ChatGPT在用用户数据不断学习聊天风格;Claude已经写了Claude项目95%的代码。"这个事情更像是一个渐变,不是突变。"

他认为最大的问题是想象力:"如果2026年或2027年我们有一个范式发生,我宣布了一个新的系统实现了自我学习,它应该是什么样的效果你会相信?它是一个赚钱的交易系统?还是解决了人类之前没法解决的科学问题?"

2、林俊旸:AI需要主动性,但这引发安全问题

"我非常担心安全问题,不是担心它今天讲一些不该说的话,最担心的是它做一些不该做的事情。就像培养小孩一样,我们要给它注入正确的方向。"

3、唐杰:2026年一定会有范式革新

他的判断基于两个逻辑:一是学术界现在有卡了,创新种子已经孵化;二是效率瓶颈已经出现。继续Scaling(扩大模型规模)有收益,但收益率在下降。"如果能用更少的投入获得同样智能的提升,它就变成瓶颈式的突破。"

他提出了一个新概念:Intelligence Efficiency(智能效率),衡量的是用多少投入能获得智能的增量。

4、杨强:工业界和学术界正在分化

这位资深学者提出了一个有趣的视角:"大模型不能自证清白,必定有一些幻觉不可能消灭掉。你多少资源能换取多少幻觉的降低,这是有一个平衡点的,特别像经济学里风险和收益的平衡。"

他还提到了睡眠的类比:人类每天晚上睡觉是在清理噪音,使得第二天准确率能持续提升。"像这些理论研究孕育着一种新的计算模式。"

五、中国机会:20%的概率成为全球最强

讨论最后,主持人问了一个尖锐问题:三到五年后,全球最领先的AI公司是中国团队的概率有多大?

林俊旸给出的数字是20%,理由是:"美国的Compute(算力)整体比我们大1-2个数量级,他们大量投入到下一代Research,我们光交付就已经占据了绝大部分。创新是发生在有钱人手里,还是穷人手里,这是历史以来就有的问题。"

姚顺雨则相对乐观,但指出几个关键条件:光刻机能否突破、能否有更成熟的To B市场、有没有更多愿意做冒险事情的人。"今天中国唯一要解决的问题是:我们到底能不能引领新的范式?"

唐杰总结了三点:一群聪明人真的敢做冒险的事(90后00后已经具备);环境可能更好一些(让俊旸有更多时间做创新而不是交付);我们能不能笨笨地坚持,"也许走到最后的就是我们"。

总结

这场峰会呈现了中国AI行业在关键转折点上的集体思考。几个共识正在形成:
• Chat时代结束,Agent时代开启
• 模型能力正在从通用走向分化
• RL(强化学习)的潜力还没有完全释放
• 自主学习是下一个范式,但定义和路径尚不清晰
• 中国在开源和效率优化上有优势,但范式创新仍是短板

最值得关注的信号是:头部玩家都开始把"做事"而非"聊天"作为核心目标。这意味着2026年,我们可能会看到AI从对话工具变成真正的工作伙伴,能独立完成持续数小时甚至数天的复杂任务。

核心归纳

Q1: 为什么说Chat时代已经结束?

DeepSeek的出现基本解决了Chat范式下的核心问题。继续在Chat上做,最多做到个性化或情感化,收益有限。新的范式是让AI真正做事,从对话变成行动,从问答变成任务执行。智谱选择了Coding+Agent路线,把编程、推理、智能体能力整合在一起。

Q2: 中国模型公司的核心差距在哪?

算力规模差1-2个数量级,而且美国公司大量算力投入下一代Research,中国公司光交付就占据了绝大部分资源。更深层的问题是:一旦范式被证明可行,中国能快速追上甚至局部做得更好;但引领新范式的冒险精神和文化积淀还不够。林俊旸给中国公司成为全球最强的概率是20%。

Q3: 自主学习什么时候会真正爆发?

姚顺雨认为自主学习已经在发生,ChatGPT在学习用户风格,Claude在写自己的代码,只是还不够石破天惊。唐杰判断2026年一定会有范式革新,原因是学术界开始有卡做创新了,同时Scaling的效率瓶颈已经出现。关键挑战是:我们还不知道自主学习成功时应该长什么样,用什么任务和指标来衡量。

发布于 北京