🔥聊聊如何在大模型 RL 中灵活地控制熵增熵减
本文介绍我们近期在RLVR训练动态方面的一项研究。我们从梯度保留裁剪(Gradient-Preserving Clipping)的理论视角出发,提出了一套灵活的熵调节机制,并基于熵增熵减的调节机制,实验了包括先熵增再熵减,熵减-熵增-熵减和动态衰减的三种熵控制策略,通过实验证明,该策略有效缓解了GRPO训练中的策略熵崩溃问题。
阅读全文:http://t.cn/AXfcfphG
#人工智能[超话]##青稞社区##大模型#
发布于 河北
