Thinking Machines Lab发新的博文了： On-Policy Distillationhttp://t.cn/AXws9ptH博文探讨了一种新的训练方法——“On-Policy Distillation”（政策内蒸馏），旨在解决传统强化学习在模型训练中反馈稀疏、收敛速度慢等问题。它结合了强化学习的“在线纠错”能力和监督微调的“密集反馈”优势，适用

Thinking Machines Lab发新的博文了： On-Policy Distillation
http://t.cn/AXws9ptH
博文探讨了一种新的训练方法——“On-Policy Distillation”（政策内蒸馏），旨在解决传统强化学习在模型训练中反馈稀疏、收敛速度慢等问题。它结合了强化学习的“在线纠错”能力和监督微调的“密集反馈”优势，适用于：
小型模型的高效训练
数学推理、代码生成等复杂任务
个性化助手、持续学习等实际应用
#微博兴趣创作计划#

发布于山东