人大与快手团队联合提出AEPO

中国人民大学高瓴人工智能学院与快手 Klear 语言大模型团队联合提出 Agentic Entropy-Balanced Policy Optimization（AEPO） http://t.cn/AXAlXJEf