推荐大家去看一下月之暗面创始人杨植麟最近的一场演讲。
这是他拿到5亿美元融资后首次公开露面,在一场定向邀请的行业论坛上,把Kimi 2025年的技术路线讲得非常透彻。
今天我就把这场演讲里最重要的几个点整理出来,和大家聊聊。
1️⃣ 第一个重点:大模型的智能上限快要被数据卡住了。
杨植麟开场就点出了一个很残酷的现实:互联网的存量数据就那么多,高质量内容的增长速度早就跟不上模型扩张的胃口了。
换句话说,大家都在同一个池子里捞鱼,谁也别想比谁多捞太多。
那怎么办?
他给出的答案是提升Token Efficiency,翻译成人话就是让每一口数据都吃得更有营养。
打个比方,同样吃一顿饭,有人能把营养全吸收,有人吃完就拉肚子。
模型也一样,同样的数据喂进去,有的能学到精髓,有的只学了个皮毛。
月之暗面为此搞出了一款新的二阶优化器,直接让效率翻倍。
别人用100万条数据才能达到的效果,你用50万条就能搞定。
这玩意儿的价值不在于省钱,而在于突破智能的天花板。
当所有人都把数据榨干的那一天,谁的消化能力强,谁就是最后的赢家。
2️⃣ 第二个重点:AI要学会长记性了。
我们日常用AI经常遇到一个问题,聊着聊着它就忘了前面说过什么。
这不是AI在装傻,而是它的记忆容量确实有限。
杨植麟说,在Agentic智能时代,AI要完成的任务越来越复杂。
比如让它从零开发一个操作系统,可能需要连续执行两三百步操作,中间不能断,也不能忘。
传统架构在这种超长任务面前就有点力不从心了。
于是他们搞出了Kimi Linear架构。
这个架构最牛的地方在于,在百万级上下文长度下,速度能快6到10倍,而且效果还更好。
简单说就是,记得更多,跑得更快,还不容易犯糊涂。
他的原话是:一个优秀的架构,能让AI胜任那些从零开始写完整代码仓库的任务,而不是只能干干翻译这种简单活儿。
3️⃣ 第三个重点:Kimi在一道超难的题上超过了OpenAI。
杨植麟在演讲中提到了一个让人眼前一亮的数据。
在HLE这个极其困难的基准测试上,Kimi K2的准确率达到了45%,超过了OpenAI。
HLE可以理解为大模型界的高考压轴题,能在这道题上拿高分,说明模型真的有两把刷子。
更重要的是,K2是中国第一个完全的Agentic模型。
它能完成连续两三百步的复杂工具调用,去解决那些人类看了都头大的难题。
杨植麟特别提到,中国的开源模型正在成为新的行业标准。
比如英伟达发布新产品的时候,已经开始用中国的开源模型做测试了。
从跟跑到并跑,再到开始定义规则,这个转变挺让人感慨的。
4️⃣ 第四个重点:做模型本质上是在创造一种世界观。
演讲最后,杨植麟聊了点形而上的东西。
他说智能和电力不一样。电是同质的,一度电和另一度电没区别。
但智能是非同质的,每个模型产生的内容都是独一无二的。
所以做模型的过程,其实是在表达你认为一个好的AI应该是什么样。
他还分享了一段和Kimi的对话。
他问Kimi:面对AGI可能带来的风险,是否应该继续开发?
Kimi的回答是:应该继续。 因为放弃开发,就意味着放弃人类文明的上限。
不管这是Kimi真正的想法还是训练出来的价值观,这个答案都挺有意思的。
发布于 上海
