开眼了！360智脑团队宣布他们成功复现了Deepseek的强化学习效果发布并开源了其推理模型：Light-R1-14B-DS性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。而且开源了模型的SFT数

开眼了！360智脑团队宣布他们成功复现了Deepseek的强化学习效果

发布并开源了其推理模型：Light-R1-14B-DS

性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。
性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。

而且开源了模型的SFT数据、代码以及技术报告。

这是业界首次在 14B 模型上复现强化学习效果，提高了其数学推理能力。成绩超越绝大多数 32B 级模型

相比 DeepSeek-R1-14B，Light-R1-14B-DS 在 AIME24 提高了 4.3 分，在 AIME25 提高了 10 分！

📢 在数学推理任务 GPQA 上也表现优异，达到 61.7 分！

Light-R1-14B-DS 采用了两种训练方法：

1️⃣ Curriculum SFT（渐进式监督微调）
• 分阶段训练，让 AI 先学简单数学，再学复杂问题
• 进一步提高模型的数学逻辑推理能力

2️⃣ 强化学习（RL）
• 首次成功在 14B 级别推理模型上应用 RL
• 进一步提升推理准确率，且其他技能基本不掉点

项目地址：http://t.cn/A6BtV5Ho
模型地址：http://t.cn/A6BVYnFo
数据地址：http://t.cn/A6BtV5HS
技术报告：http://t.cn/A6BVYnFS

发布于安徽