阿里国际数字贸易集团的AI团队 (AIDC-Al ) 刚刚发布了新模型—— Ovis2.5，分为9B和2B版本。从模型卡上看这是个经济型的视觉推理模型，即在9B和2B这个规模内做到了不错的结果。模型的特性有：原生分辨率感知 — 使用的 NaViT 视觉编码器在无损平铺的情况下保留精细细节和全局结构。深度推理能力

阿里国际数字贸易集团的AI团队 (AIDC-Al ) 刚刚发布了新模型—— Ovis2.5，分为9B和2B版本。

从模型卡上看这是个经济型的视觉推理模型，即在9B和2B这个规模内做到了不错的结果。

模型的特性有：

原生分辨率感知 — 使用的 NaViT 视觉编码器在无损平铺的情况下保留精细细节和全局结构。
深度推理能力 — 可选思考模式(可能复用了一部分Qwen3的特性？)，在线性 CoT 之外进行自我检查和修订。支持思考预算。
图表与文档 OCR — 在其规模上（9B/2B）达到最先进水平，用于复杂图表分析、文档理解（包括表格和表单）以及 OCR。
广泛任务覆盖 — 在图像推理、视频理解和 grounding 基准测试上展现出先进性能，展示出强大的通用多模态能力。

我在2月份给大家做过Ovis2的视频评测，稍后我也会放出这个Ovis2.5的视频评测，敬请期待。

#ai创造营# #ai生活指南#

发布于日本