开眼了!360智脑团队宣布他们成功复现了Deepseek的强化学习效果
发布并开源了其推理模型:Light-R1-14B-DS
性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。
性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。
而且开源了模型的SFT数据、代码以及技术报告。
这是业界首次在 14B 模型上复现强化学习效果,提高了其数学推理能力。成绩超越绝大多数 32B 级模型
相比 DeepSeek-R1-14B,Light-R1-14B-DS 在 AIME24 提高了 4.3 分,在 AIME25 提高了 10 分!
📢 在数学推理任务 GPQA 上也表现优异,达到 61.7 分!
Light-R1-14B-DS 采用了两种训练方法:
1️⃣ Curriculum SFT(渐进式监督微调)
• 分阶段训练,让 AI 先学简单数学,再学复杂问题
• 进一步提高模型的数学逻辑推理能力
2️⃣ 强化学习(RL)
• 首次成功在 14B 级别 推理模型上应用 RL
• 进一步提升推理准确率,且其他技能基本不掉点
项目地址:http://t.cn/A6BtV5Ho
模型地址:http://t.cn/A6BVYnFo
数据地址:http://t.cn/A6BtV5HS
技术报告:http://t.cn/A6BVYnFS
发布于 安徽
