Kimi团队发布AttnRes论文

Kimi 团队发布的论文 (arXiv:2603.15031)，Attention Residuals (AttnRes) 🔥用注意力机制改造了传统残差连接，让模型学会"选择性记忆"前面各层的信息，效果全面提升🎯

问题：现代 LLM 普遍使用 PreNorm + 残差连接，但这种固定权重的逐层累积会导致：
• 隐藏状态随层数加深不断膨胀
• 后面层的输出被前面层"稀释"，每层的贡献被削弱
解决方案：用注意力机制替代固定权重累积！
• 让每层动态决定要"借鉴"前面哪些层的输出
• 就像模型自己学会选择性地记住前面层的信息，而不是一股脑全加起来

1. Full AttnRes - 理论上最优，但计算/通信开销大
2. Block AttnRes - 分块注意力，折中效率与效果
3. 配合缓存式流水线通信 + 两阶段计算策略，可作为 Drop-in 替换

发布于四川