互联网的那点事 25-03-13 18:00
微博认证:微博互联网观察家

开眼了!360智脑团队宣布他们成功复现了Deepseek的强化学习效果

发布并开源了其推理模型:Light-R1-14B-DS

性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。
性能表现超过 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B。

而且开源了模型的SFT数据、代码以及技术报告。

这是业界首次在 14B 模型上复现强化学习效果,提高了其数学推理能力。成绩超越绝大多数 32B 级模型

相比 DeepSeek-R1-14B,Light-R1-14B-DS 在 AIME24 提高了 4.3 分,在 AIME25 提高了 10 分!

📢 在数学推理任务 GPQA 上也表现优异,达到 61.7 分!

Light-R1-14B-DS 采用了两种训练方法:

1️⃣ Curriculum SFT(渐进式监督微调)
• 分阶段训练,让 AI 先学简单数学,再学复杂问题
• 进一步提高模型的数学逻辑推理能力

2️⃣ 强化学习(RL)
• 首次成功在 14B 级别 推理模型上应用 RL
• 进一步提升推理准确率,且其他技能基本不掉点

项目地址:http://t.cn/A6BtV5Ho
模型地址:http://t.cn/A6BVYnFo
数据地址:http://t.cn/A6BtV5HS
技术报告:http://t.cn/A6BVYnFS

发布于 安徽