[LG]《Self-Distillation Enables Continual Learning》I Shenfeld, M Damani, J Hübotter, P Agrawal [MIT & ETH Zurich] (2026)
大模型在部署后往往是“静态”的:它们能通过提示词临时适应,却无法在不遗忘旧知识的前提下持续进化。传统的监督微调(SFT)虽然简单,但其“离策略”的本质往往导致严重的灾难性遗忘。
本文提出了一种全新的方案:自蒸馏微调(Self-Distillation Fine-Tuning, SDFT)。它通过让模型充当自己的老师,实现了从演示数据中进行“在策略”学习,为大模型的持续学习开辟了新路径。
大模型持续学习的痛点在于“离策略”陷阱。SFT 强迫模型去模仿外部专家的静态分布,这就像是让一个学生死记硬背标准答案,一旦遇到新考卷,不仅新知识学不扎实,连原本擅长的旧知识也会忘得精光。真正的学习应当是“在策略”的,即在模型自己的行为逻辑基础上进行修正。
SDFT 的核心逻辑非常精妙:它利用了大模型强大的上下文学习(ICL)能力。对于每一个任务,模型扮演两个角色。老师是“带小抄的自己”——即在提示词中加入专家演示;学生是“不带小抄的自己”。训练的目标不是让学生去复读专家的原话,而是让学生在自己生成的路径上,去对齐那个“更睿智的自己”。
这在数学上等同于一种隐式的逆强化学习(Inverse RL)。SDFT 并不需要预先定义复杂的奖励函数,它假设模型在观测到演示后的行为改变,本质上就代表了专家的意图。这种方式让模型在获取新技能的同时,始终保持在自己的参数流形附近,从而极大地缓解了参数剧烈波动带来的遗忘。
实验结果令人振奋。在科学问答、工具使用和医疗推理等任务中,SDFT 的表现全面超越了 SFT。更重要的是,在连续学习三个不同技能的挑战中,SFT 的性能呈现出剧烈的震荡和衰减,而 SDFT 则展现出了惊人的稳定性,实现了技能的真正累积。
SDFT 解决了一个困扰推理模型已久的难题:当监督数据只有最终答案而没有推理过程时,SFT 往往会诱导模型缩短推理链条,导致逻辑坍塌。而 SDFT 由于是向“带演示的自我”学习,它能够保留并利用模型内在的思维链(CoT)能力,即便在缺乏推理过程标注的数据集上,也能提升逻辑深度。
这种方法具有极强的“规模效应”。研究发现,模型规模越大,其上下文学习能力越强,SDFT 提供的教学信号就越精准。这意味着,随着基础模型能力的提升,这种自进化的效率会越来越高。
深度思考:
持续学习不应是推倒重来,而是自我逻辑的延伸。SDFT 的成功告诉我们,大模型内部其实已经蕴含了理解复杂意图的种子,我们需要的不是强加外部的意志,而是通过合适的机制,让模型学会如何“打捞”并内化这些潜能。
总结:
- 最好的老师往往是那个观测过正确答案后、反思自我的自己。
- 持续学习的本质,是在不丢失自我的前提下,完成对世界的动态扩容。
- 模仿只能接近终点,而对齐自我的在策略演进,才能真正跨越遗忘的鸿沟。
arxiv.org/abs/2601.19897
