LLM自我改进先升后崩

[LG]《Self-Improvement Can Self-Regress: The Rise-and-Collapse Failure Mode of LLM Self-Training》J Lin [MetaAI] (2026)

在 LLM 自我改进（Self-improvement）领域，模型通过自身生成数据进行强化学习（如 REINFORCE）时，性能往往会陷入“先升后崩”的怪圈。过去的方法受困于模型在优化目标指标的同时，会迅速发生灾难性的策略坍缩（Collapse），本质原因是模型在固定分布上过度优化（Over-optimization），导致策略熵减并抹除了通用的代码生成先验，且传统的参数级约束（如 KL 散度）无法阻止这种趋势。

本文的核心洞见是：把自我改进过程从单一的指标增长重新看作一种“能力权衡算子（Capability Tradeoff Operator）”。由此，引入 CARE 框架，通过记录策略对多维能力的影响快照，并在训练活动间实施“能力感知门控（Transfer Gate）”和“早停机制（ES）”这一关键操作，使系统能够识别坍缩前兆并回滚至峰值检查点，从而将不稳定的自我回归转化为可累积的知识增长。

这项工作真正留下的遗产是揭示了自我改进失效的两种时间尺度——活动内的“悬崖式坍缩”与活动间的“增益漂移”。它为后来者打开的新门是证明了算法级优化（如 GRPO）能提升模型底线，而活动级编排（Orchestration）在小参数模型中具有显著的稳定性价值，但尚未跨过的门槛是即便结合算法与策略控制，仍无法完全消除大模型在长链训练后期偶尔出现的单次活动灾难性崩溃。

arxiv.org/abs/2606.21090 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京