SFT与Distillation技术对比

🔥从梯度角度看SFT、Off-Policy Distillation、RL、On-Policy Distillation

我们在此讨论 On-Policy Distillation、Off-Policy Distillation、RL、SFT 之间的联系和区别。

• 在RL没火的时候，我们提到distillation几乎都是Off-Policy Distillation。SFT和Off-Policy Distillation都是Off-Policy的，并且Off-Policy Distillation训出的模型肯定比SFT好。
• RL火了之后，我们提到distillation逐渐变成了全部都是On-Policy Distillation。RL和On-Policy Distillation 都是On-Policy的，并且On-Policy Distillation比RL更有优势。

Off-Policy Distillation到On-Policy Disitllation好理解，核心区别是student策略和teacher策略在不同的数据集下进行对齐。

阅读全文：http://t.cn/AXchpVlt

#人工智能[超话]##青稞社区#

发布于河北