谷歌研究团队提出了“嵌套学习”(Nested Learning),这是一种用于持续学习(Continual Learning)的全新机器学习范式,旨在解决现有大型语言模型(LLMs)中普遍存在的“灾难性遗忘”(Catastrophic Forgetting)问题。
核心观点和方法:
* 统一架构与优化: 嵌套学习打破了传统上将模型架构(网络结构)和优化算法(训练规则)视为独立部分的做法。它认为这两者本质上是同一概念在不同“优化层次”上的体现。
* 多层级优化问题: 该范式将一个复杂的ML模型视为一个由相互关联、多层次的优化问题组成的系统,这些问题是同时进行优化的。每个内部问题都有自己独特的信息流(“上下文流”)和更新频率。
* 解决灾难性遗忘: 通过认识到这种内在的结构,并为模型的每个组件定义不同的更新频率(多时间尺度更新),嵌套学习提供了一个新的设计维度,可以构建具有更深计算深度的学习组件,从而减轻或完全避免灾难性遗忘。
* 实际应用:
* 深度优化器(Deep optimizers): 将优化器(如基于动量的优化器)视为关联记忆模块,并通过应用关联记忆的原则来改进它们,使其对不完善的数据更具弹性。
* 连续体记忆系统(Continuum memory systems, CMS): 将模型的记忆视为一个由不同更新频率模块组成的连续体,为持续学习创建了一个更丰富、更有效的记忆系统。
* 概念验证模型——Hope: 研究人员基于嵌套学习的原则设计了一个名为Hope的自修改循环架构。该模型利用CMS模块,能扩展到更大的上下文窗口,并通过自引用过程优化自身的记忆。实验结果显示,Hope模型在语言建模、长上下文推理和持续学习等任务上,性能优于现有的Transformer等先进模型,尤其在长上下文管理方面表现更佳。
总结来说, 嵌套学习通过将模型的架构和训练规则统一为一套嵌套的优化问题,并允许模型组件以不同的频率进行更新,模仿了人脑神经可塑性的特点,为构建能持续学习而不遗忘的下一代AI系统提供了新的理论基础和设计方向。
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
