香港中文大学、加州大学圣地亚哥分校、佐治亚理工学院、字节跳动的研究者进一步发现发现,在 active reasoning 场景中,outcome-based RL 并不一定会自然训练出更善于交互的 agent。 http://t.cn/AXaTKJfJ
香港中文大学、加州大学圣地亚哥分校、佐治亚理工学院、字节跳动的研究者进一步发现发现,在 active reasoning 场景中,outcome-based RL 并不一定会自然训练出更善于交互的 agent。 http://t.cn/AXaTKJfJ