来自武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员便在 ICML 2024 上发表了一项 “扩散模型对齐” 方向的研究，所提出的名为 TDPO-R 的强化学习算法与 o1 不谋而合地也采用了细粒度奖励机制。 http://t.cn/A6nUIVtb _新浪新闻

机器之心Pro 24-10-25 20:28

微博认证：机器之心官方微博

来自武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员便在 ICML 2024 上发表了一项 “扩散模型对齐” 方向的研究，所提出的名为 TDPO-R 的强化学习算法与 o1 不谋而合地也采用了细粒度奖励机制。 http://t.cn/A6nUIVtb