强化学习书籍更新

Nathan Lambert写的介绍强化学习的开源书籍又更新啦，下面是作者的介绍：
--------------------------
过去一个月，我对 RLHF 书籍进行了从头到尾的更新。所有这些变化都已反映在网站 rlhfbook.com 上，并将很快转移到 Manning 早期访问版（MEAP），随后还会有更多改进，特别是对于纸质书的更新。

总体来说，这次更新将 PDF 页面数从大约 150 页增加到了大约 200 页，整本书现在更加完整了。

一些较大的变化：
⭕️更新了 RL 章节，加入了更多算法，如 GSPO、CISPO 等。
⭕️更新了大表格，包含了推理模型技术报告（完整列表见下）。还新增了关于 RLVR 评分标准的部分。
⭕️更新了许多章节的文字，更好地反映了当今的最佳实践。
⭕️在全书中进行多项清晰度修正，增加了更好的过渡、引言等。
⭕️全书的符号使用更为一致。

如果你只在 2025 年上半年阅读过一次，强烈建议你再看一遍。这里也有许多令人惊讶的细节，比如修正了这张附加的 RLHF 系统图，你可能会认出它来自我 2022 年 12 月在 HuggingFace 上发布的 RLHF 博客文章，它之前有一些小错误。

下一步，我将专注于使 Manning 的纸质书更加出色。内容将比网页版更流畅（我尽量不改变链接），例如将“宪法人工智能”和“合成数据”章节相互关联。总体而言，这应该能使整本书的阅读体验更加顺畅。此外，所有的图表和内容都将设计得更加优雅。

感谢阅读和反馈！

#科技先锋官##AI创造营#

发布于山东