青稞AI
26-02-22 12:07 微博认证:AI博主

🔥从梯度角度看SFT、Off-Policy Distillation、RL、On-Policy Distillation

我们在此讨论 On-Policy Distillation、Off-Policy Distillation、RL、SFT 之间的联系和区别。

• 在RL没火的时候,我们提到distillation几乎都是Off-Policy Distillation。SFT和Off-Policy Distillation都是Off-Policy的,并且Off-Policy Distillation训出的模型肯定比SFT好。
• RL火了之后,我们提到distillation逐渐变成了全部都是On-Policy Distillation。RL和On-Policy Distillation 都是On-Policy的,并且On-Policy Distillation比RL更有优势。

Off-Policy Distillation到On-Policy Disitllation好理解,核心区别是student策略和teacher策略在不同的数据集下进行对齐。

阅读全文:http://t.cn/AXchpVlt

#人工智能[超话]##青稞社区#

发布于 河北