自蒸馏微调实现持续学习

[LG]《Self-Distillation Enables Continual Learning》I Shenfeld, M Damani, J Hübotter, P Agrawal [MIT & ETH Zurich] (2026)

大模型在部署后往往是“静态”的：它们能通过提示词临时适应，却无法在不遗忘旧知识的前提下持续进化。传统的监督微调（SFT）虽然简单，但其“离策略”的本质往往导致严重的灾难性遗忘。

本文提出了一种全新的方案：自蒸馏微调（Self-Distillation Fine-Tuning, SDFT）。它通过让模型充当自己的老师，实现了从演示数据中进行“在策略”学习，为大模型的持续学习开辟了新路径。

大模型持续学习的痛点在于“离策略”陷阱。SFT 强迫模型去模仿外部专家的静态分布，这就像是让一个学生死记硬背标准答案，一旦遇到新考卷，不仅新知识学不扎实，连原本擅长的旧知识也会忘得精光。真正的学习应当是“在策略”的，即在模型自己的行为逻辑基础上进行修正。

SDFT 的核心逻辑非常精妙：它利用了大模型强大的上下文学习（ICL）能力。对于每一个任务，模型扮演两个角色。老师是“带小抄的自己”——即在提示词中加入专家演示；学生是“不带小抄的自己”。训练的目标不是让学生去复读专家的原话，而是让学生在自己生成的路径上，去对齐那个“更睿智的自己”。

这在数学上等同于一种隐式的逆强化学习（Inverse RL）。SDFT 并不需要预先定义复杂的奖励函数，它假设模型在观测到演示后的行为改变，本质上就代表了专家的意图。这种方式让模型在获取新技能的同时，始终保持在自己的参数流形附近，从而极大地缓解了参数剧烈波动带来的遗忘。

实验结果令人振奋。在科学问答、工具使用和医疗推理等任务中，SDFT 的表现全面超越了 SFT。更重要的是，在连续学习三个不同技能的挑战中，SFT 的性能呈现出剧烈的震荡和衰减，而 SDFT 则展现出了惊人的稳定性，实现了技能的真正累积。

SDFT 解决了一个困扰推理模型已久的难题：当监督数据只有最终答案而没有推理过程时，SFT 往往会诱导模型缩短推理链条，导致逻辑坍塌。而 SDFT 由于是向“带演示的自我”学习，它能够保留并利用模型内在的思维链（CoT）能力，即便在缺乏推理过程标注的数据集上，也能提升逻辑深度。

这种方法具有极强的“规模效应”。研究发现，模型规模越大，其上下文学习能力越强，SDFT 提供的教学信号就越精准。这意味着，随着基础模型能力的提升，这种自进化的效率会越来越高。

深度思考：
持续学习不应是推倒重来，而是自我逻辑的延伸。SDFT 的成功告诉我们，大模型内部其实已经蕴含了理解复杂意图的种子，我们需要的不是强加外部的意志，而是通过合适的机制，让模型学会如何“打捞”并内化这些潜能。

总结：
- 最好的老师往往是那个观测过正确答案后、反思自我的自己。
- 持续学习的本质，是在不丢失自我的前提下，完成对世界的动态扩容。
- 模仿只能接近终点，而对齐自我的在策略演进，才能真正跨越遗忘的鸿沟。

arxiv.org/abs/2601.19897

发布于北京