蚁工厂 26-03-26 10:57
微博认证:科技博主

Kimi 杨植麟「2026 中关村论坛」演讲全文
大家好,今天很高兴有机会分享我们在做开源模型和不断训练更好的大模型过程中的最新进展和思考。

其实做大模型本质上是把能源转化成智能。转化的过程中,最重要的事情是规模化。也就是说,把尽可能多的能源,经过算力和模型,变成更多的、更高程度的智能。

本质上,规模化定律(Scaling Law)是过去若干年,所有的模型和 AI 发展的一个很重要的基础。
当然,规模化并不是代表我们只是去暴力地增加能源,或者去暴力的增加算力,而是涉及到我们如何有效地规模化。
我们会从三个维度去思考如何提高效率 图2 :

首先是提升 Token 效率。

它代表的是从同样的数据中能够学到多少智能。因为这个世界上的有效高质量数据,其实是一个常量,或者说是一个非常有限的值。如果你有更好的网络架构,或者有更好的优化器,那么你就可以从有限的数据里学到更多的智能。

第二是扩展上下文长度。

更长的上下文能力,意味着模型可以学会处理更复杂的任务。为此,我们设计了新的网络架构 Kimi Linear 和专门的训练数据,来提升模型在长上下文时的表现。

第三是 Agent 集群。

我们在最新模型 Kimi K2.5 中提出了一种新的规模化的方法,就是通过引入多个 Agent,让很多个 Agent 可以一起去工作,形成 Agent 集群。通过这种方式提升 AI 能完成的任务复杂度。
[图3]

这是我们 K2.5 Agent 集群的一个内部测试结果。横坐标是任务复杂度,纵坐标是执行时间,如果我们用这种单一 Agent 的方式工作,可以看到随着任务复杂度逐渐提升,完成时间是指数增加的。如果你需要做一个非常复杂的任务,比如从头去写一个代码仓库,去实现一个很复杂的功能,需要几天甚至几周的时间。

但如果我们能够并行,比如说开启 100个 Agent 同时去做这个任务,然后在过程中它们会互相协作,互相协调和规划接下来应该做的事情,就跟人类的组织一样,那么随着任务复杂度的增加,执行时间其实没有太大的变化。这意味着你可以在单位时间内去完成更加复杂的任务,使得原来一些完全不可能实现的任务变得有可能。

就像一家公司,如果你想做一个非常艰难的事情,完成一个很复杂的使命,比如说从 0 到 1 建造一家 100 亿或者 1,000 亿美元的公司,那么你只靠一个人,可能要 100 年才能做出来,那你在市场上是没有竞争力的,但这个时候如果你有100 或者 200 个非常聪明的人,能一起协作,那就有可能在短时间内完成。
[图4]

通过 Agent 集群能力,我们可以实现规模化的输入,比如说你可以同时去调查几百个不同的数据来源,在各种权威的数据源里面寻找答案;你也可以做规模化的输出,比如说你可以通过阅读这些数据来源,去撰写一个几百页的论文;以及去规模化的执行或规模化的编排,去提升模型能处理的任务复杂度。

同时,我们非常注重研发更好的底层网络架构。这是我们最新开源的模型架构,叫做注意力残差(Attention Residuals)。这项技术主要的灵感来自于 10 年前的技术 Resnet, 或者叫残差网络连接。
[图5]

在十年之前,其实没有任何人有办法去训练深度的神经网络。直到何凯明等研究者引入残差网络,可以让模型去训练几十、几百层的网络,可以任意的增加层数。

这种残差结构,其实可以认为是 LSTM 网络的一个变种,只是说 LSTM 是应用在时间的维度上,残差网络更多体现在网络深度上,使得每一层可以用上一层的输出,然后做一个函数的处理,得到当前这一层的输出。

我们把类似的思路做一个自然的泛化,把注意力机制这种计算模式做 90 度的旋转,从原来只是应用在时间轴上,现在我们可以把它应用在深度上。把注意力应用到深度上有很多好处,比如不仅仅只是基于前一层的输出来进行计算,而是可以去结合之前的所有层的输出进行计算,这样在优化网络架构性能的时候就有非常多好处。
[图6]

这是我们整个注意力残差的架构图。左边是标准的残差结构,右边是我们提出来并开源的残差结构。然后,我们也设计了基于块状的残差结构,使它能够非常高效地实现。基本上在只有 2% 额外成本的情况下,就大幅度提升了效果。
[图7]

就像我刚才说的,大模型的第一性原理是规模化定律(Scaling Law),但我们不仅仅只是去暴力的做规模化,而是希望我们在规模化的同时也能够去提升效率,所以我们一直致力于研发更强的模型架构。比如像 Adam 优化器或者像 Attention 架构、残差连接这些都是有了 10 余年历史的技术。在计算机领域,十年其实是非常长的时间。过去十年的时间里面,没有任何人能够去挑战这些技术,大家都把它当成一个标准。

但随着现在算力的提升和大家研发方式的变化,从原来的偏学术,单纯从想法(idea)出发的研究,到变成现在更加重视与工程的结合,然后可以设计非常扎实的规模化验证实验,从而得到非常扎实的结论。因此,很多以前认为是标准的东西,现在都可以被挑战。
[图8]

我们看到,开源模型正在逐渐成为新的标准。这是几张从刚刚结束的英伟达 GTC 2026 大会上,黄仁勋的主题演讲中里面摘取的幻灯片。可以看到,以 Kimi K2.5 为代表的开源模型,已成为全世界所有芯片厂商测试硬件性能的基准:如果发布新的芯片,就会通过 Kimi 或者其他开源模型来评测芯片性能提升幅度。

现在,全世界很多研究机构也在用 Kimi K2.5 或其他的开源模型去进行研究。我们通过开源,让每一个企业、每一个研究者、每一个终端用户,都能以非常低门槛获取智能,是一个非常重要的事情。

同时我们做的很多重要的创新,包括我刚提到的新的架构也是开放的,可以被任何人所获取。最终,大家能够去形成一个开源生态系统,一起推动 AI 领域的发展。
[图9]

最后想跟大家分享,从模型训练的角度看,大模型领域仍在快速发展,现在的研发方式跟两三年之前会有很大不同:

2023 年和 2024 年,大家主要使用「天然」数据。也就是从整个互联网获取的数据,加上一些少量的人工标注,比如去标注某一条数据是不是符合价值观或者偏好。

2025年,大家更加重视搭建大规模的强化学习系统。但要靠人筛选高质量任务,然后在这些任务上做强化学习得到更好的效果。可以看到,在编程或者数学领域上得到的能力提升,主要就来自于这种技术路线。

从 2026 年开始,包括接下来的若干年时间内,整个 AI 研发的方式会发生重大变化:更多由 AI 去主导研究。每个研究员会配备非常多的 AI Token, 然后这些 AI 的 Token 可以帮你去合成新的任务,帮你合成新的环境,帮你定义在这个环境下面最好、最合适的奖励函数是什么。甚至可以去帮你探索新的网络架构可能长什么样。

因此,整个 AI 的研发也会逐渐加速。我们希望也能够跟整个开源社区一起,打造更好的生态系统,不断把技术往前推进,加速探索智能的上限。

感谢大家。
#How I AI#

发布于 山东