SWE-Vision改进视觉模型能力

在过去一年，多模态大模型的代码能力取得了惊人进展——独立搭建项目、排查bug、完成复杂重构，表现已可比肩资深工程师。

然而，在「理解视觉世界」这件事上，它们的表现远没有代码能力那样可靠。

UniPat AI此前发布的多模态基准BabyVision就揭示了这一现象：模型常常给出大段看似合理的推理，却在最基础的计量、计数和空间关系判断上出错。

UniPat AI此前发布的多模态理解benchmark BabyVision已被多个近期发布的重磅模型产品纳入评测体系，并在其技术报告中被引用，体现了社区对这一问题的广泛关注。

当我们仔细审视BabyVision中模型出错的案例时，可以发现一个关键点：问题往往是「模型看见了，却无法精确处理」：

阅读柱状图时，模型能感知到「大约75%」，但无法精确计算比值；
在复杂场景中计数时，模型可能识别了每一个物体，但在逐一清点时出错；
描述空间位置时，模型能给出定性判断，但难以稳定进行距离计算和几何推理。
面对这些错误，人类通常会怎么做？

掏出工具：画辅助线、作出标记、用尺测量、用笔计算。

这个观察引发了一个关键猜想：既然模型已经极其擅长编程，能否让它用代码——这个它最熟悉的工具——来弥补视觉处理中的精度短板？

SWE-Vision正是对这一猜想的系统性验证。

其结果令人瞩目：在五个不同的视觉基准测试中——涵盖基础感知、图表推理、数学问题解决、空间理解和复杂的多步骤视觉挑战——SWE-Vision始终改进了前沿LLM，如GPT-5.2-xhigh和Seed-2.0-Pro，并取得了最先进的结果：

在BabyVision上达到64.4，

在MathVision上达到94.0，

在Zero-Bench-Sub上达到50.1，

在OmniSpatial上达到69.0，

在CharXiv-RQ上达到82.5。

官网： http://t.cn/AXfPzECs

Blog： http://t.cn/AXfPzECk

开源地址：
http://t.cn/AXfPzECF