哇!!!Kimi 新发的论文《Attention Residuals》太牛了吧?
连马斯克都第一时间点赞了,排面拉满。
他们干了啥事儿呢?我用 AI 辅助阅读了一下。
简单说,在传统深度学习模型里,每一层都必须原封不动地,全盘接收前面所有层塞过来的信息,权重全是固定的 。层数一多,信息量就会不受控制地爆炸,导致最前面层提供的关键原始信号,被严重稀释和掩盖了。
论文提出了注意力残差(AttnRes),直接废除了“全盘接收”的死规矩 。它让每一层都拿着自己的“需求单”(一个学习到的查询向量),利用注意力机制回头去评估前面所有层的产出,按需提取真正有用的信息。
但是吧,逐层回头看太费内存和通讯成本了 。所以作者设计了分块注意力残差(Block AttnRes),把网络切分成几个区块,后续的层只需要看前面区块的“浓缩总结”,完美解决了算力和内存的瓶颈。
实验证明这套机制极其健康,模型内部的数据不再无限膨胀,梯度分布也更均匀 。在同等算力下,它的表现相当于凭空多出了 25% 的算力。
而且在写代码、解数学题这种极其需要“回头看步骤”的复杂任务上,成绩提升得尤为明显。
用大白话一句话总结:以前盖摩天大楼(大模型),每一层都必须把脚下所有层的砖头一股脑全扛在肩上,越往上越臃肿;现在 Kimi 给每一层配了个“智能机械臂”(注意力机制),这层需要什么材料就直接去底下的指定楼层精准抓取,大楼不仅盖得更高,还更轻盈结实了。
这波创新真的夯爆了👍👍👍
传送门:github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
#HOW I AI##科技先锋官##月之暗面##kimi#
发布于 北京
