机器之心Pro 25-08-14 11:07
微博认证:机器之心官方微博

腾讯混元 AI 数字人团队提出了 RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards) 框架。 http://t.cn/A6s9a4mm ​