RLVR揭秘参数稀疏更新机制

[LG]《The Path Not Taken: RLVR Provably Learns Off the Principals》H Zhu, Z Zhang, H Huang, D Su... [Meta AI & The University of Texas at Austin] (2025)

RLVR揭秘：强强化学习为何仅改动少量参数却大幅提升推理能力？

本文深入剖析了大规模语言模型中强化学习带来的“参数稀疏更新”之谜。

核心观察：
- RLVR（Reinforcement Learning with Verifiable Rewards）在微调时，更新集中在特定参数子集，且高度稳定、跨数据集和算法一致。
- 这种“稀疏”更新表象其实源于一个“模型条件优化偏置”：强化学习更新绕开模型的主导参数方向，转向低曲率、保谱（保持权重谱不变）子空间。
- bfloat16数值精度限制放大了这种偏置的视觉效果，让微小更新在非偏好区域“消失”，呈现稀疏假象。

三门理论（Three-Gate Theory）构建了RLVR优化动态的机制解释：
1. Gate I（KL锚定）：强化学习每步更新受KL散度约束，限制策略变化幅度，确保更新“温和”。
2. Gate II（模型几何）：模型的预训练权重形状引导更新避开主方向，进向低曲率子空间，保护预训练结构。
3. Gate III（数值精度）：有限精度掩盖了非主导方向的微小更新，使更新“稀疏”显现。

实验证据：
- RLVR更新与主权重方向（高能量权重）明显错位，SFT（监督微调）则紧盯主权重。
- RLVR保持了权重的谱结构和主子空间几乎不动，SFT则引发显著谱漂移和旋转。
- 干预模型几何结构（如正交旋转）破坏了RLVR更新的稳定性，确认几何是偏置核心。

深远影响：
- RLVR运作于与SFT截然不同的参数空间优化机制，直接沿用SFT时代的参数高效微调方法（如LoRA、稀疏微调）可能适得其反。
- 实验显示，限制更新到主权重区域会严重阻碍RL训练，而专注于非主权重、低幅度区域的更新则接近完整训练效果。
- 低秩适配器LoRA在RL中表现良好，因其天然契合非主权重更新，但强化主方向的变体（如PiSSA）反而不稳定、易崩溃。

这项研究不仅揭示了RLVR训练过程的白盒机制，也为设计专门适配RL的几何感知高效微调算法指明了方向，挑战了沿用SFT思路的传统认知。

论文链接：arxiv.org/abs/2511.08567

发布于北京