受到基于规则的强化学习(Rule-Based Reinforcement Learning)在 R1 上成功应用的启发,中科院自动化研究所与中科紫东太初团队探索了如何结合高质量指令对齐数据与类 R1 的强化学习方法,进一步增强图文大模型的视觉定位能力。该方法首次在 Object Detection、Visual Grounding 等复杂视觉任务上,使 Qwen2.5-VL 模型实现了最高 50% 的性能提升,超越了参数规模超过 10 倍的 SOTA 模型。 http://t.cn/A6rS9nUa
