juwenjune 26-03-21 13:10
微博认证:科技博主

Kimi 团队发布的论文 (arXiv:2603.15031),Attention Residuals (AttnRes) 🔥用注意力机制改造了传统残差连接,让模型学会"选择性记忆"前面各层的信息,效果全面提升🎯

问题: 现代 LLM 普遍使用 PreNorm + 残差连接,但这种固定权重的逐层累积会导致:
• 隐藏状态随层数加深不断膨胀
• 后面层的输出被前面层"稀释",每层的贡献被削弱
解决方案: 用 注意力机制 替代固定权重累积!
• 让每层动态决定要"借鉴"前面哪些层的输出
• 就像模型自己学会选择性地记住前面层的信息,而不是一股脑全加起来

1. Full AttnRes - 理论上最优,但计算/通信开销大
2. Block AttnRes - 分块注意力,折中效率与效果
3. 配合缓存式流水线通信 + 两阶段计算策略,可作为 Drop-in 替换

发布于 四川