Thinking Machines Lab发新的博文了: On-Policy Distillation
http://t.cn/AXws9ptH
博文探讨了一种新的训练方法——“On-Policy Distillation”(政策内蒸馏),旨在解决传统强化学习在模型训练中反馈稀疏、收敛速度慢等问题。它结合了强化学习的“在线纠错”能力和监督微调的“密集反馈”优势,适用于:
小型模型的高效训练
数学推理、代码生成等复杂任务
个性化助手、持续学习等实际应用
#微博兴趣创作计划#
发布于 山东
