#RL也能做预训练# [平安果]我们提出了一种全新的LLM Scaling范式：强化预训练 (Reinforcement Pre-Training, RPT)！🚀不再直接通过next-token prediction objective训练语言模型，而是通过RL做next-token reasoning来训练🔍 核心思想 RPT 将传统的“next-token prediction”重构为一个可

#RL也能做预训练# [平安果]

我们提出了一种全新的LLM Scaling范式：强化预训练 (Reinforcement Pre-Training, RPT)！🚀

不再直接通过next-token prediction objective训练语言模型，而是通过RL做next-token reasoning来训练

🔍 核心思想
RPT 将传统的“next-token prediction”重构为一个可验证的推理任务（正确答案是下一个token)，并通过RL进行训练。模型不仅要输出next-token，还需要先“思考”，再给出最终的prediction

我们认为，natural language corpus的token与token背后，还有更多的知识和隐含的推理步骤值得挖掘，相比于直接让模型“模仿”下一个词，不如让模型学习 token与token关系背后更深层的知识和推理过程。

📌 好处

- General Purpose Reasoning：直接用预训练语料构造奖励，而不再局限于用code / math data

- Scalable RL：web corpus都可以作为这个task的training data with verifiable reward

- 减少 Reward Hacking：基于“token 匹配”的明确奖励信号，有效避免复杂 reward model 带来的偏差

- Inference-time Compute: 可以促使模型学会在特别困难的 token 上投入更深的计算与思考

- Easy to Use：RPT 可以直接作为一个推理模型zero-shot地完成任务，也可以提升后续做RLVR的表现

📊 实验结果
Language Modeling: 我们的RPT-14B，在下一词预测的准确率上, 接近比它大一倍多的R1-Qwen-32B模型
Scaling Properties: 拟合的scaling curve说明有比较好的scaling性质而且可预测
RPT + RLVR: RPT不仅提升了语言建模能力，也为后续的RL微调提供了更强的基础
Reasoning Patterns: 一些不同于直接reasoning来做题的新的reasoning pattern

相比于现有的范式，RPT为LLM scaling提供了一种新的可能性

发布于日本