嵌套学习解决AI遗忘问题

谷歌研究团队提出了“嵌套学习”（Nested Learning），这是一种用于持续学习（Continual Learning）的全新机器学习范式，旨在解决现有大型语言模型（LLMs）中普遍存在的“灾难性遗忘”（Catastrophic Forgetting）问题。

核心观点和方法：
* 统一架构与优化：嵌套学习打破了传统上将模型架构（网络结构）和优化算法（训练规则）视为独立部分的做法。它认为这两者本质上是同一概念在不同“优化层次”上的体现。
* 多层级优化问题：该范式将一个复杂的ML模型视为一个由相互关联、多层次的优化问题组成的系统，这些问题是同时进行优化的。每个内部问题都有自己独特的信息流（“上下文流”）和更新频率。
* 解决灾难性遗忘：通过认识到这种内在的结构，并为模型的每个组件定义不同的更新频率（多时间尺度更新），嵌套学习提供了一个新的设计维度，可以构建具有更深计算深度的学习组件，从而减轻或完全避免灾难性遗忘。
* 实际应用：
* 深度优化器（Deep optimizers）：将优化器（如基于动量的优化器）视为关联记忆模块，并通过应用关联记忆的原则来改进它们，使其对不完善的数据更具弹性。
* 连续体记忆系统（Continuum memory systems, CMS）：将模型的记忆视为一个由不同更新频率模块组成的连续体，为持续学习创建了一个更丰富、更有效的记忆系统。
* 概念验证模型——Hope：研究人员基于嵌套学习的原则设计了一个名为Hope的自修改循环架构。该模型利用CMS模块，能扩展到更大的上下文窗口，并通过自引用过程优化自身的记忆。实验结果显示，Hope模型在语言建模、长上下文推理和持续学习等任务上，性能优于现有的Transformer等先进模型，尤其在长上下文管理方面表现更佳。

总结来说，嵌套学习通过将模型的架构和训练规则统一为一套嵌套的优化问题，并允许模型组件以不同的频率进行更新，模仿了人脑神经可塑性的特点，为构建能持续学习而不遗忘的下一代AI系统提供了新的理论基础和设计方向。

https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

发布于江苏