袁国庆 26-03-21 10:31
微博认证:科技博主 微博原创视频博主

#马斯克说这就是kimi# 马斯克为什么会点赞Kimi ?

因为这项工作,开始触碰大模型里一个长期被忽视的问题——信息是如何在层与层之间流动的。

过去十年,基于 Transformer模型架构的大模型一路靠算力扩张。但随着模型变深,一个隐性问题逐渐暴露:信息传递并不高效,存在冗余计算。

Kimi相关研究尝试优化这一点——通过引入更“有选择性”的信息传递机制,让模型不再对所有历史信息一视同仁,而是按需保留、动态筛选。

这类思路,某种程度上是在回答一个关键问题:

大模型,是否可以不靠“堆算力”,而是“更聪明地计算”?

更令人意外的是,这篇论文的第一作者,是一位来自深圳的17岁高中生陈广宇,获得马斯克的称赞。

这或许释放出一个信号:中国AI,正在从“把模型做大”,走向“尝试改变模型本身”。 http://t.cn/AXfSaq91

发布于 上海