#马斯克说这就是kimi# 马斯克为什么会点赞Kimi ?
因为这项工作,开始触碰大模型里一个长期被忽视的问题——信息是如何在层与层之间流动的。
过去十年,基于 Transformer模型架构的大模型一路靠算力扩张。但随着模型变深,一个隐性问题逐渐暴露:信息传递并不高效,存在冗余计算。
Kimi相关研究尝试优化这一点——通过引入更“有选择性”的信息传递机制,让模型不再对所有历史信息一视同仁,而是按需保留、动态筛选。
这类思路,某种程度上是在回答一个关键问题:
大模型,是否可以不靠“堆算力”,而是“更聪明地计算”?
更令人意外的是,这篇论文的第一作者,是一位来自深圳的17岁高中生陈广宇,获得马斯克的称赞。
这或许释放出一个信号:中国AI,正在从“把模型做大”,走向“尝试改变模型本身”。 http://t.cn/AXfSaq91
发布于 上海
