机器之心Pro 25-06-09 19:36
微博认证:机器之心官方微博

知识蒸馏(KD)是一种将大模型(教师)的知识迁移到小模型(学生)的技术,学生通过模仿教师预测分布,充分利用软标签信息,通常优于传统监督微调,已在图像分类、文本生成等任务及最新工作(如 DeepSeek-R1、Qwen-3)中得到验证。 http://t.cn/A6eSOeLA ​