陈阿荣TD 24-06-24 10:37

合成数据之指令预训练
1. 方法: 提出了指令预训练框架,通过合成大量指令-响应对来增强原始语料库,用于预训练语言模型,该方法不仅提高了基础模型性能,还有利于后续的指令微调
2. 实验: 合成了2亿个指令-响应对,涵盖40多个任务类别,使Llama3-8B模型的性能可与Llama3-70B相媲美或超越

FROM: http://t.cn/A6QMGvC5

发布于 北京