🔥从梯度角度看SFT、Off-Policy Distillation、RL、On-Policy Distillation
我们在此讨论 On-Policy Distillation、Off-Policy Distillation、RL、SFT 之间的联系和区别。
• 在RL没火的时候,我们提到distillation几乎都是Off-Policy Distillation。SFT和Off-Policy Distillation都是Off-Policy的,并且Off-Policy Distillation训出的模型肯定比SFT好。
• RL火了之后,我们提到distillation逐渐变成了全部都是On-Policy Distillation。RL和On-Policy Distillation 都是On-Policy的,并且On-Policy Distillation比RL更有优势。
Off-Policy Distillation到On-Policy Disitllation好理解,核心区别是student策略和teacher策略在不同的数据集下进行对齐。
阅读全文:http://t.cn/AXchpVlt
#人工智能[超话]##青稞社区#
发布于 河北
