karminski-牙医 26-03-17 11:34
微博认证:AI博主

马斯克一波点赞给Kimi论文冲到了2百万阅读!

月之暗面刚发了个论文, 截止到我截图, 在X上已经有220万的阅读了, 连马斯克都来凑热闹点赞了, 那搞了什么东西这么火? 来, 给大家写一个尽量不需要专业知识就能看懂的文:

论文的名字叫 Attention Residuals, 没事, 俩单词都不认识都没问题.

首先给大家简单介绍大模型是怎么计算的, 大模型其实就是一大堆小数组成的向量, 他们像数独一样填充在网状的格子里, 整个网就是大模型的层 (layer).

为啥要分层? 因为扁平结构无法产生"高级抽象思维", 而复杂问题必须通过"组合"来解决, 所以大模型的浅层只负责理解文本的主谓宾, 而深层则是负责抽象推理 (恭喜你发明了深度学习).

这几十, 上百个层组合到一起, 就是大模型的基础结构了 (路由和输出部分我们暂时忽略).

那么在以前, AI 是怎么读懂一句话的呢? 它是按顺序读的: 读第一个词, 与每一层进行计算, 然后层再与上一层的结果进行计算, 最终得到特征存起来, 读第二个词, 把新词和刚才的特征揉在一起, 然后第三个, 第四个词...
注意到了吧?每一个新词都要跟上一次揉成一团的输出计算一下, 这导致状态永远只偏向最后输入的几个词, 而开头第一个词到底说了啥, 早就被一次次的计算冲刷没了. 这就叫"长距离遗忘"

而 transformer 的革命性突破就是每次计算完毕的结果都保存下来, 然后每次的结果都跟之前所有的结果进行计算, 这样即使极其细微的相关性都能捕捉到. 这就是"注意力机制"

哎? 发现了没有, 我们在每个token输入的时候做到了词与词之间的注意力, 但是大模型是多层的啊? 每一层的结果是怎么聚到一起的? 答案还是简单加到一起的. 这种方法就叫标准残差连接 (今天的主角终于出现啦!)

之前第100层的计算结果想要知道自己与第1层计算结果的相关性, 只能拿到第99层"张量蜈蚣"拉出来的早就变形的结果, 是没办法直接查询第1层的计算结果的.

那假设这次计算, 在中间有一层, 它的计算结果是特别有价值的怎么办? 那就只能在训练的时候, 将那一层的相关向量数值的绝对值调整的超级高, 这就是 "PreNorm 稀释", 这么玩会导致模型训练不稳定. (今天你调高了明天他调高了这就等于大家都没调嘛!)

那么为什么不给层与层之间的计算也加上注意力呢? 这就是月之暗面这篇新论文的核心! Attention Residuals(注意力残差)

现在每层之间的计算再也不是大杂烩了, 能让每一层的结果都与任意一层的结果进行计算, 训练稳定性大幅度提升!

但是还有问题, 这样计算成本太高, 每一层得结果都要存储, 于是月之暗面又引入了 Block AttnRes, 我们不保存所有层的计算结果了, 而是规定好, 几个层的结果合并为一个, 然后整体保留10个结果, 这样就直接把资源消耗压缩到了1/10. 而且只要损失率不高, 这个保留结果的量就是合理的.

所以能看出来为什么这个技术是革命性的了吧? 如果把大模型比作一个超级大脑, 以前它在做极度复杂的 100 步逻辑推演时, 到了第 100 步如果想用第 1 步的某个细微线索, 只能靠中间 99 步像"传声筒"一样传话, 传到最后全变味了.

而现在, 你在做卷子最后一道压轴大题时, 赫然发现能直接翻回第一页看公式!

最后, Kimi 团队在一个 48B 数的模型上做了验证 (应该就是新版kimi-linear啦), 用了这个新技术后, 相当于凭空白嫖了 25% 的算力(1.25倍计算效率)!而且在数学、代码编写、多步逻辑推理等复杂任务上, 成绩全面超越老架构, 更离谱的是, 增加的推理延迟还不到 2%! (新增逻辑还是要付出成本的).

有同学会说, 哎? 这不跟 DeepSeek 的 mHC 差不多嘛? 还是有区别的, 二者虽然都是针对标准残差连接下手, DeepSeek 的做法则是维护多个连接, 并且每个连接中的数据使用复杂的矩阵变换维护, 所以看上去 DeepSeek 的 mHC 本质上相当于层与层之间的"线性注意力",而 Kimi 的 AttnRes 则是"Softmax" 也就是真·注意力.

所以在资源消耗表现上, 二者更多是选型的不同, 当真正为用户服务面临大的 batch_size 设定的时候, DeepSeek 的 mHC 会表现越来越慢, 因为吃显存带宽, 而 Kimi 的 AttnRes 则是会爆显存, 因为Block AttnRes的存储吃显存容量. 当然研究团队在论文中也给了解决方案, 多机分片+流式处理了.

u1s1 这次的标准残差连接又是一个从 xxxx 年提出后大家都是这么用过来的一直没人改的东西. 结果这次月之暗面从基础架构优化, 到工程优化, 再到实验落地全都有, 这一波我是服气的.

期待一波应用了这个新技术的 kimi-linear, 我的本地龙虾已经饥渴难耐了!

#HOW I AI##AttentionResiduals##注意力残差##月之暗面##kimi#

发布于 日本