爱可可-爱生活 25-11-09 07:56
微博认证:AI博主 2025微博新锐新知博主

Nested Learning(嵌套学习)

过去十年,机器学习因强大神经网络架构与训练算法取得飞跃,但持续学习仍是难题:模型难以在学习新知识时保持旧知识,易遭遇“灾难性遗忘”。人脑通过神经可塑性实现终身学习,适应新经验,而现有大语言模型(LLM)知识仅限于输入窗口的短期上下文或训练阶段的静态记忆。

传统方法往往将模型架构与训练算法视为两码事,限制了学习系统的统一高效性。谷歌研究团队提出“嵌套学习”(Nested Learning)新范式,视单一模型为多层级、相互嵌套或并行的优化问题集合,每层拥有独立的信息流“上下文流”和不同的更新频率。架构与优化算法本质相同,都是不同层级的优化过程。该视角揭示深度学习模型实际上通过压缩其内部上下文流学习,并提供设计更深层次计算结构的全新维度,助力解决灾难性遗忘等核心难题。

以联想记忆(associative memory)为例,训练过程中的反向传播本质上是学习将数据映射到局部误差(“惊讶度”)的记忆机制。类似地,Transformer中的注意力机制也可视为学习序列中令牌映射的联想记忆模块。通过定义各组件的更新频率,嵌套学习将优化问题排序成层级结构,形成其核心。

基于此,研究团队提出多项创新:

- 深度优化器:将优化器(如动量法)视为联想记忆模块,摒弃传统仅靠点积相似度的更新,采用更鲁棒的L2回归损失,提升动量等机制对不完美数据的适应力。
- 连续记忆系统(Continuum Memory System,CMS):传统Transformer将序列模型作为短期记忆,前馈网络作为长期记忆。CMS将记忆视为不同频率更新模块的连续谱,构建更丰富、高效的持续学习记忆体系。
- Hope架构:基于嵌套学习设计的自我修改递归模型,扩展自Titans架构(后者基于记忆“惊讶度”进行优先级管理),Hope支持无限层级的上下文学习,并融合CMS模块以处理更长上下文,具备自我优化记忆的能力,实现无限循环学习层级。

实验覆盖语言建模、长上下文推理、持续学习及知识整合,Hope在公开基准测试中展现更低困惑度和更高准确率,特别在长上下文“针尖找大海”任务中,显示出CMS的卓越记忆管理能力。

总结而言,嵌套学习范式统一架构与优化,开启设计多层级学习系统的新维度。Hope等模型验证了这一理念可带来更具表现力、高效且具持续学习能力的AI系统。该范式为缩小当前LLMs短视遗忘与人脑终身学习能力间的差距提供了坚实基础,期待科研界共同开拓自我进化AI的未来。

论文:abehrouz.github.io/files/NL.pdf
博客:research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

发布于 北京