教学项目RLFromScratch:用纯 Pytorch 从零开始实现了 GRPO 和 DPO
github.com/mingyin0312/RLFromScratch
该项目展示训练过程的详细信息,如掩码、KL惩罚、调度和评估,帮助用户理解算法的实际运作。使用该项目的训练结果:
使用Llama-3.2-1B-Instruct模型,GRPO在GSM8K数据集上从约10%的准确率提升至约23%(仅1个epoch)。
使用Llama-3.2-1B模型,DPO在Tiny-Safe-Pair数据集上将偏好准确度从约50%提升至60%。
#AI创造营##微博兴趣创作计划#
发布于 山东
