蚁工厂 26-01-03 11:04
微博认证:科技博主

Nathan Lambert写的介绍强化学习的开源书籍又更新啦,下面是作者的介绍:
--------------------------
过去一个月,我对 RLHF 书籍进行了从头到尾的更新。所有这些变化都已反映在网站 rlhfbook.com 上,并将很快转移到 Manning 早期访问版(MEAP),随后还会有更多改进,特别是对于纸质书的更新。

总体来说,这次更新将 PDF 页面数从大约 150 页增加到了大约 200 页,整本书现在更加完整了。

一些较大的变化:
⭕️更新了 RL 章节,加入了更多算法,如 GSPO、CISPO 等。
⭕️更新了大表格,包含了推理模型技术报告(完整列表见下)。还新增了关于 RLVR 评分标准的部分。
⭕️更新了许多章节的文字,更好地反映了当今的最佳实践。
⭕️在全书中进行多项清晰度修正,增加了更好的过渡、引言等。
⭕️全书的符号使用更为一致。

如果你只在 2025 年上半年阅读过一次,强烈建议你再看一遍。这里也有许多令人惊讶的细节,比如修正了这张附加的 RLHF 系统图,你可能会认出它来自我 2022 年 12 月在 HuggingFace 上发布的 RLHF 博客文章,它之前有一些小错误。

下一步,我将专注于使 Manning 的纸质书更加出色。内容将比网页版更流畅(我尽量不改变链接),例如将“宪法人工智能”和“合成数据”章节相互关联。总体而言,这应该能使整本书的阅读体验更加顺畅。此外,所有的图表和内容都将设计得更加优雅。

感谢阅读和反馈!

#科技先锋官##AI创造营#

发布于 山东