教学项目RLFromScratch：用纯 Pytorch 从零开始实现了 GRPO 和 DPOgithub.com/mingyin0312/RLFromScratch该项目展示训练过程的详细信息，如掩码、KL惩罚、调度和评估，帮助用户理解算法的实际运作。使用该项目的训练结果：使用Llama-3.2-1B-Instruct模型，GRPO在GSM8K数据集上从约10%的准确率提

教学项目RLFromScratch：用纯 Pytorch 从零开始实现了 GRPO 和 DPO
github.com/mingyin0312/RLFromScratch
该项目展示训练过程的详细信息，如掩码、KL惩罚、调度和评估，帮助用户理解算法的实际运作。使用该项目的训练结果：
使用Llama-3.2-1B-Instruct模型，GRPO在GSM8K数据集上从约10%的准确率提升至约23%（仅1个epoch）。
使用Llama-3.2-1B模型，DPO在Tiny-Safe-Pair数据集上将偏好准确度从约50%提升至60%。
#AI创造营##微博兴趣创作计划#

发布于山东