AINLP 25-03-05 22:10
微博认证:AI博主

Deepseek-R1-Zero复现实验细节 http://t.cn/A61kmVJc

思维链长度增长和准确率提升是什么关系?
思维链长度增长实际上是一种test-time scaling law,即增加模型的搜索时间,从而带来准确率的提升;就如同AlphaGo在推理时的MCTS,搜索时间越长效果越好;只不过现在是模型自我搜索,而非给定某种搜索方式。

思维链是如何变长的?
是强化学习训练过程中模型自己涌现的,但是有一些影响因素:

问题的难度:简单题不会让思维链变长
训练的步数:要足够多
reward设计:当回答不对时进行惩罚,似乎更能“逼迫”模型多思考一下再作答;
什么样的思维链数据格式具有最佳的样本效率?

TODO
R1为什么要多阶段?即每个阶段都从Base模型开始训练,前面阶段的模型只用于数据蒸馏。

发布于 江苏