机器之心Pro
25-08-14 11:07 微博认证:机器之心官方微博

腾讯混元 AI 数字人团队提出了 RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards) 框架。 http://t.cn/A6s9a4mm ​