小红书人文智能实验室（Humane Intelligence Lab，hi lab）在昨天低调开源了视觉语言模型dots.vlm1，给VLM带来了意想不到的惊喜。仔细看了看这个团队的架构和愿景，发现「hi lab」是由小红书内部大模型技术与应用产品团队合并升级而来，在关于hi lab的官方介绍中，特别强调了「将研发重点放在了多元

小红书人文智能实验室（Humane Intelligence Lab，hi lab）在昨天低调开源了视觉语言模型dots.vlm1，给VLM带来了意想不到的惊喜。

仔细看了看这个团队的架构和愿景，发现「hi lab」是由小红书内部大模型技术与应用产品团队合并升级而来，在关于hi lab的官方介绍中，特别强调了「将研发重点放在了多元智能形态上」。

他们希望通过融合人际智能、空间智能、音乐智能、人文关怀等各种智能形态，不断拓展人机交互的可能性。

对多模态的信仰和投入的决心可见一斑。

而dots.vlm1，正是小红书hi lab研发并开源的首个多模态大模型。

这个模型基于hi lab全自研的12亿参数NaViT视觉编码器和DeepSeek V3的大语言模型构建，在视觉的理解和推理任务上均有不俗的表现，接近了SOTA水平，并且在纯文本任务中仍保持竞争力。

在主要的视觉评测集上，比如MMMU/MathVision/OCR Reasoning，dots.vlm1的整体表现已接近当前领先模型Gemini 2.5 Pro与Seed-VL1.5 Thinking，显示出较强的图文理解与推理能力。
在典型的文本推理任务（如AIME、GPQA、LiveCodeBench）上，dots.vlm1的表现大致相当于DeepSeek-R1-0528，在数学和代码能力上已具备一定的通用性，但在GPQA等更多样的推理任务上仍存在差距。
总体来看，dots.vlm1在视觉多模态能力方面已接近SOTA水平。

Github Repo：
http://t.cn/A6FkIWDD

Huggingface Model：
http://t.cn/A6FkIWDe

Demo ：
http://t.cn/A6FkIWDg

在实测中，我们发现，不论是空间关系理解、复杂图表推理、OCR识别、高考题评测、STEM难题、写诗等各个方面，dots.vlm1的表现都远超预期。