欧巴聊AI 26-03-16 21:29
微博认证:AI博主

哇!!!Kimi 新发的论文《Attention Residuals》太牛了吧?

连马斯克都第一时间点赞了,排面拉满。

他们干了啥事儿呢?我用 AI 辅助阅读了一下。

简单说,在传统深度学习模型里,每一层都必须原封不动地,全盘接收前面所有层塞过来的信息,权重全是固定的 。层数一多,信息量就会不受控制地爆炸,导致最前面层提供的关键原始信号,被严重稀释和掩盖了。

论文提出了注意力残差(AttnRes),直接废除了“全盘接收”的死规矩 。它让每一层都拿着自己的“需求单”(一个学习到的查询向量),利用注意力机制回头去评估前面所有层的产出,按需提取真正有用的信息。

但是吧,逐层回头看太费内存和通讯成本了 。所以作者设计了分块注意力残差(Block AttnRes),把网络切分成几个区块,后续的层只需要看前面区块的“浓缩总结”,完美解决了算力和内存的瓶颈。

实验证明这套机制极其健康,模型内部的数据不再无限膨胀,梯度分布也更均匀 。在同等算力下,它的表现相当于凭空多出了 25% 的算力。

而且在写代码、解数学题这种极其需要“回头看步骤”的复杂任务上,成绩提升得尤为明显。

用大白话一句话总结:以前盖摩天大楼(大模型),每一层都必须把脚下所有层的砖头一股脑全扛在肩上,越往上越臃肿;现在 Kimi 给每一层配了个“智能机械臂”(注意力机制),这层需要什么材料就直接去底下的指定楼层精准抓取,大楼不仅盖得更高,还更轻盈结实了。

这波创新真的夯爆了👍👍👍

传送门:github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

#HOW I AI##科技先锋官##月之暗面##kimi#

发布于 北京