量子位 25-05-28 14:43
微博认证:量子位官方微博

#AI画辅助线远不及人类##AI画辅助线能力新基准#

研究表明,让AI动手画个辅助线,它居然还不如一个中学生。

清华大学、腾讯、斯坦福等团队,联合发布了一个新评测系统——RBench-V,专门测试AI的“视觉推理”能力。简单来说,就是看看这些多模态大模型能不能像人一样,看到一张图就知道该在哪画线、怎么连点、哪里需要标记。

测试结果让人大跌眼镜:OpenAI的最新模型o3得分只有25.8%,而普通人平均能做到82.3%。Google家的Gemini、国内的Qwen、InternVL等模型,表现更惨,甚至接近“随便蒙”的水平。

这背后其实有个严重问题——现在的AI大多还是“靠文字思维”,看到图也只会从文字的角度去分析,而不是像人一样直观感受、动手操作。比如看到一个几何图,它不会先画条辅助线再分析,而是尝试用代数式描述整个图形,然后拼命用文字推理……

对于我们这些普通用户来说,这就意味着:虽然AI看上去很强,但在某些具体场景下,比如教小朋友几何、处理工程设计图、甚至玩个图形类解谜游戏,它可能会“智障”,帮不上什么忙。

不过也别太失望,研究团队也在探索新方向,比如让AI学会“边看边画边想”,发展所谓“多模态思维链”和“智能体式推理”。

扩展阅读:http://t.cn/A6ggdHTQ