🔥From Traditional RL to LLM RL 理论推导与工程改进
过去半年到一年时间,自己也算是在LLM RL领域的一个科研工作者。
自从25年年初DeepSeek-R1横空出世后,LLM RL就变成了一个非常火爆的方向,与此同时基于GRPO改进的各种XXPO方法如“雨后春笋”般涌出,大家都在不同的方向尝试应用RL来取得更好的效果。
我是25年年初刚开始接触LLM,之前对于RL的理解也不是很深刻,中间断断续续学习了好几次这其中的理论推导,同时也实际上手尝试了LLM RL理解了一些工程上的问题,特此总结,希望能够帮助初学者从零理解这其中的理论推导和工程改进。
阅读全文:http://t.cn/AXcbl1tA
#人工智能[超话]##青稞社区##RL#
发布于 河北
