机器之心Pro 25-11-04 13:45
微博认证:机器之心官方微博

中国人民大学高瓴人工智能学院与快手 Klear 语言大模型团队联合提出 Agentic Entropy-Balanced Policy Optimization(AEPO) http://t.cn/AXAlXJEf ​