LLM RL理论与工程改进

🔥From Traditional RL to LLM RL 理论推导与工程改进

过去半年到一年时间，自己也算是在LLM RL领域的一个科研工作者。

自从25年年初DeepSeek-R1横空出世后，LLM RL就变成了一个非常火爆的方向，与此同时基于GRPO改进的各种XXPO方法如“雨后春笋”般涌出，大家都在不同的方向尝试应用RL来取得更好的效果。

我是25年年初刚开始接触LLM，之前对于RL的理解也不是很深刻，中间断断续续学习了好几次这其中的理论推导，同时也实际上手尝试了LLM RL理解了一些工程上的问题，特此总结，希望能够帮助初学者从零理解这其中的理论推导和工程改进。

阅读全文：http://t.cn/AXcbl1tA
#人工智能[超话]##青稞社区##RL#