董力xp 25-06-10 13:29
微博认证:AI博主

#RL也能做预训练# [平安果]

我们提出了一种全新的LLM Scaling范式:强化预训练 (Reinforcement Pre-Training, RPT)!🚀

不再直接通过next-token prediction objective训练语言模型,而是通过RL做next-token reasoning来训练

🔍 核心思想
RPT 将传统的“next-token prediction”重构为一个 可验证的推理任务(正确答案是下一个token),并通过RL进行训练。模型不仅要输出next-token,还需要先“思考”,再给出最终的prediction

我们认为,natural language corpus的token与token背后,还有更多的知识和隐含的推理步骤值得挖掘,相比于直接让模型“模仿”下一个词,不如让模型 学习 token与token关系背后 更深层的知识和推理过程。

📌 好处

- General Purpose Reasoning:直接用预训练语料构造奖励,而不再局限于用code / math data

- Scalable RL:web corpus都可以作为这个task的training data with verifiable reward

- 减少 Reward Hacking:基于“token 匹配”的明确奖励信号,有效避免复杂 reward model 带来的偏差

- Inference-time Compute: 可以促使模型学会在特别困难的 token 上投入更深的计算与思考

- Easy to Use:RPT 可以直接作为一个推理模型zero-shot地完成任务,也可以提升后续做RLVR的表现

📊 实验结果
Language Modeling: 我们的RPT-14B,在下一词预测的准确率上, 接近比它大一倍多的R1-Qwen-32B模型
Scaling Properties: 拟合的scaling curve说明有比较好的scaling性质而且可预测
RPT + RLVR: RPT不仅提升了语言建模能力,也为后续的RL微调提供了更强的基础
Reasoning Patterns: 一些不同于直接reasoning来做题的新的reasoning pattern

相比于现有的范式,RPT为LLM scaling提供了一种新的可能性

发布于 日本