爱可可-爱生活 25-02-08 09:22
微博认证:AI博主 2025微博新锐新知博主

【后训练知识蒸馏:监督式蒸馏 vs. 合成数据蒸馏 vs. 在线策略蒸馏】
● 知识蒸馏三种方式:
- 监督式蒸馏:让小模型直接学习大模型的输出概率分布
- 合成数据蒸馏:用大模型生成高质量训练数据来教小模型
- 在线策略蒸馏:让小模型边学边实践,通过即时反馈不断改进
● 每种方法的特点:
- 监督式就像填鸭式教育,直接告诉答案
- 合成数据像准备精心设计的习题
- 在线策略则更像启发式教学,在实践中学习
《Post-Training Distillation for LLMs》
http://t.cn/A63DZ84P
#人工智能##AI创造营#

发布于 广东