#预训练新范式##微软亚洲研究院推出RPT预训练#
微软亚洲研究院(MSRA)联合清华、北大发布了一种全新的预训练方法——强化预训练(RPT)。
简单说,RPT就是通过强化学习,改造传统的自监督训练模式。
该方法不仅让模型的token预测更精准,而且大幅提升了推理能力,甚至能让14B模型与32B模型相抗衡。
RPT的创新在于,模型不再单纯地预测下一个token,而是通过强化学习进行深度推理,先“思考”然后预测。这就像是给模型“深度学习”加上了一层“思考”能力。
RPT是如何工作的?
- 推理与奖励机制:模型在做出预测前,会通过不同的推理模式(例如自我批评和自我纠正)生成思维链,依据推理的正确性给予奖励,促使模型提升推理能力。
- 训练数据与算法:RPT使用包含4428个竞赛数学问题的OmniMATH数据集,基于Deepseek-R1-Distill-Qwen-14B模型进行训练,并采用GRPO算法进行优化。
实验结果显示,RPT-14B模型在多个任务中的表现超越了传统的模型,尤其是在推理能力方面,甚至与32B的R1-Distill-Qwen-32B不分上下,展现出极大的潜力。
RPT模型通过强化推理训练,使得它能够在有限的数据条件下快速迁移推理能力,显著提高了推理的准确度。
与传统自监督训练的对比
- 推理能力:RPT通过强化推理训练,使得模型的推理能力大幅提升,相比传统的token预测,推理的准确性得到了显著增强。
- 计算效率:RPT还展示了明显的幂律缩放效应,随着计算资源的增加,模型的预测准确性也随之提升。
强化预训练的出现,可能会彻底改变未来AI模型的预训练方式。
而随着RPT的不断发展,强化学习有望成为AI领域预训练的新主流,推动LLM达到更高的理解和推理水平。http://t.cn/A6epeyqB
论文链接:http://t.cn/A6eKQZ5v
