研究者：RL不自然训练交互

香港中文大学、加州大学圣地亚哥分校、佐治亚理工学院、字节跳动的研究者进一步发现发现，在 active reasoning 场景中，outcome-based RL 并不一定会自然训练出更善于交互的 agent。 http://t.cn/AXaTKJfJ