来自武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员便在 ICML 2024 上发表了一项 “扩散模型对齐” 方向的研究,所提出的名为 TDPO-R 的强化学习算法与 o1 不谋而合地也采用了细粒度奖励机制。 http://t.cn/A6nUIVtb
来自武汉大学、悉尼大学、京东探索研究院和南洋理工大学的研究人员便在 ICML 2024 上发表了一项 “扩散模型对齐” 方向的研究,所提出的名为 TDPO-R 的强化学习算法与 o1 不谋而合地也采用了细粒度奖励机制。 http://t.cn/A6nUIVtb