大模型RL中熵崩溃问题研究

🔥聊聊如何在大模型 RL 中灵活地控制熵增熵减

本文介绍我们近期在RLVR训练动态方面的一项研究。我们从梯度保留裁剪（Gradient-Preserving Clipping）的理论视角出发，提出了一套灵活的熵调节机制，并基于熵增熵减的调节机制，实验了包括先熵增再熵减，熵减-熵增-熵减和动态衰减的三种熵控制策略，通过实验证明，该策略有效缓解了GRPO训练中的策略熵崩溃问题。

阅读全文：http://t.cn/AXfcfphG
#人工智能[超话]##青稞社区##大模型#