爱可可-爱生活 25-11-13 05:36
微博认证:AI博主 2025微博新锐新知博主

[LG]《The Path Not Taken: RLVR Provably Learns Off the Principals》H Zhu, Z Zhang, H Huang, D Su... [Meta AI & The University of Texas at Austin] (2025)

RLVR揭秘:强强化学习为何仅改动少量参数却大幅提升推理能力?

本文深入剖析了大规模语言模型中强化学习带来的“参数稀疏更新”之谜。

核心观察:
- RLVR(Reinforcement Learning with Verifiable Rewards)在微调时,更新集中在特定参数子集,且高度稳定、跨数据集和算法一致。
- 这种“稀疏”更新表象其实源于一个“模型条件优化偏置”:强化学习更新绕开模型的主导参数方向,转向低曲率、保谱(保持权重谱不变)子空间。
- bfloat16数值精度限制放大了这种偏置的视觉效果,让微小更新在非偏好区域“消失”,呈现稀疏假象。

三门理论(Three-Gate Theory)构建了RLVR优化动态的机制解释:
1. Gate I(KL锚定):强化学习每步更新受KL散度约束,限制策略变化幅度,确保更新“温和”。
2. Gate II(模型几何):模型的预训练权重形状引导更新避开主方向,进向低曲率子空间,保护预训练结构。
3. Gate III(数值精度):有限精度掩盖了非主导方向的微小更新,使更新“稀疏”显现。

实验证据:
- RLVR更新与主权重方向(高能量权重)明显错位,SFT(监督微调)则紧盯主权重。
- RLVR保持了权重的谱结构和主子空间几乎不动,SFT则引发显著谱漂移和旋转。
- 干预模型几何结构(如正交旋转)破坏了RLVR更新的稳定性,确认几何是偏置核心。

深远影响:
- RLVR运作于与SFT截然不同的参数空间优化机制,直接沿用SFT时代的参数高效微调方法(如LoRA、稀疏微调)可能适得其反。
- 实验显示,限制更新到主权重区域会严重阻碍RL训练,而专注于非主权重、低幅度区域的更新则接近完整训练效果。
- 低秩适配器LoRA在RL中表现良好,因其天然契合非主权重更新,但强化主方向的变体(如PiSSA)反而不稳定、易崩溃。

这项研究不仅揭示了RLVR训练过程的白盒机制,也为设计专门适配RL的几何感知高效微调算法指明了方向,挑战了沿用SFT思路的传统认知。

论文链接:arxiv.org/abs/2511.08567

发布于 北京