【后训练知识蒸馏：监督式蒸馏 vs. 合成数据蒸馏 vs. 在线策略蒸馏】● 知识蒸馏三种方式：- 监督式蒸馏：让小模型直接学习大模型的输出概率分布- 合成数据蒸馏：用大模型生成高质量训练数据来教小模型- 在线策略蒸馏：让小模型边学边实践，通过即时反馈不断改进● 每种方法的特点：- 监督式就像

【后训练知识蒸馏：监督式蒸馏 vs. 合成数据蒸馏 vs. 在线策略蒸馏】
● 知识蒸馏三种方式：
- 监督式蒸馏：让小模型直接学习大模型的输出概率分布
- 合成数据蒸馏：用大模型生成高质量训练数据来教小模型
- 在线策略蒸馏：让小模型边学边实践，通过即时反馈不断改进
● 每种方法的特点：
- 监督式就像填鸭式教育，直接告诉答案
- 合成数据像准备精心设计的习题
- 在线策略则更像启发式教学，在实践中学习
《Post-Training Distillation for LLMs》
http://t.cn/A63DZ84P
#人工智能##AI创造营#