在过去一年,多模态大模型的代码能力取得了惊人进展——独立搭建项目、排查bug、完成复杂重构,表现已可比肩资深工程师。
然而,在「理解视觉世界」这件事上,它们的表现远没有代码能力那样可靠。
UniPat AI此前发布的多模态基准BabyVision就揭示了这一现象:模型常常给出大段看似合理的推理,却在最基础的计量、计数和空间关系判断上出错。
UniPat AI此前发布的多模态理解benchmark BabyVision已被多个近期发布的重磅模型产品纳入评测体系,并在其技术报告中被引用,体现了社区对这一问题的广泛关注。
当我们仔细审视BabyVision中模型出错的案例时,可以发现一个关键点:问题往往是「模型看见了,却无法精确处理」:
阅读柱状图时,模型能感知到「大约75%」,但无法精确计算比值;
在复杂场景中计数时,模型可能识别了每一个物体,但在逐一清点时出错;
描述空间位置时,模型能给出定性判断,但难以稳定进行距离计算和几何推理。
面对这些错误,人类通常会怎么做?
掏出工具:画辅助线、作出标记、用尺测量、用笔计算。
这个观察引发了一个关键猜想:既然模型已经极其擅长编程,能否让它用代码——这个它最熟悉的工具——来弥补视觉处理中的精度短板?
SWE-Vision正是对这一猜想的系统性验证。
其结果令人瞩目:在五个不同的视觉基准测试中——涵盖基础感知、图表推理、数学问题解决、空间理解和复杂的多步骤视觉挑战——SWE-Vision始终改进了前沿LLM,如GPT-5.2-xhigh和Seed-2.0-Pro,并取得了最先进的结果:
在BabyVision上达到64.4,
在MathVision上达到94.0,
在Zero-Bench-Sub上达到50.1,
在OmniSpatial上达到69.0,
在CharXiv-RQ上达到82.5。
官网: http://t.cn/AXfPzECs
Blog: http://t.cn/AXfPzECk
开源地址:
http://t.cn/AXfPzECF
