Kimi团队发布新论文

哇！！！Kimi 新发的论文《Attention Residuals》太牛了吧？

连马斯克都第一时间点赞了，排面拉满。

他们干了啥事儿呢？我用 AI 辅助阅读了一下。

简单说，在传统深度学习模型里，每一层都必须原封不动地，全盘接收前面所有层塞过来的信息，权重全是固定的。层数一多，信息量就会不受控制地爆炸，导致最前面层提供的关键原始信号，被严重稀释和掩盖了。

论文提出了注意力残差（AttnRes），直接废除了“全盘接收”的死规矩。它让每一层都拿着自己的“需求单”（一个学习到的查询向量），利用注意力机制回头去评估前面所有层的产出，按需提取真正有用的信息。

但是吧，逐层回头看太费内存和通讯成本了。所以作者设计了分块注意力残差（Block AttnRes），把网络切分成几个区块，后续的层只需要看前面区块的“浓缩总结”，完美解决了算力和内存的瓶颈。

实验证明这套机制极其健康，模型内部的数据不再无限膨胀，梯度分布也更均匀。在同等算力下，它的表现相当于凭空多出了 25% 的算力。

而且在写代码、解数学题这种极其需要“回头看步骤”的复杂任务上，成绩提升得尤为明显。

用大白话一句话总结：以前盖摩天大楼（大模型），每一层都必须把脚下所有层的砖头一股脑全扛在肩上，越往上越臃肿；现在 Kimi 给每一层配了个“智能机械臂”（注意力机制），这层需要什么材料就直接去底下的指定楼层精准抓取，大楼不仅盖得更高，还更轻盈结实了。

这波创新真的夯爆了👍👍👍

传送门：github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

#HOW I AI##科技先锋官##月之暗面##kimi#

发布于北京