新智元
25-08-07 14:39 微博认证:新智元官方微博

小红书人文智能实验室(Humane Intelligence Lab,hi lab)在昨天低调开源了视觉语言模型dots.vlm1,给VLM带来了意想不到的惊喜。

仔细看了看这个团队的架构和愿景,发现「hi lab」是由小红书内部大模型技术与应用产品团队合并升级而来,在关于hi lab的官方介绍中,特别强调了「将研发重点放在了多元智能形态上」。

他们希望通过融合人际智能、空间智能、音乐智能、人文关怀等各种智能形态,不断拓展人机交互的可能性。

对多模态的信仰和投入的决心可见一斑。

而dots.vlm1,正是小红书hi lab研发并开源的首个多模态大模型。

这个模型基于hi lab全自研的12亿参数NaViT视觉编码器和DeepSeek V3的大语言模型构建,在视觉的理解和推理任务上均有不俗的表现,接近了SOTA水平,并且在纯文本任务中仍保持竞争力。

在主要的视觉评测集上,比如MMMU/MathVision/OCR Reasoning,dots.vlm1的整体表现已接近当前领先模型Gemini 2.5 Pro与Seed-VL1.5 Thinking,显示出较强的图文理解与推理能力。
在典型的文本推理任务(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表现大致相当于DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在GPQA等更多样的推理任务上仍存在差距。
总体来看,dots.vlm1在视觉多模态能力方面已接近SOTA水平。

Github Repo:
http://t.cn/A6FkIWDD

Huggingface Model:
http://t.cn/A6FkIWDe

Demo :
http://t.cn/A6FkIWDg

在实测中,我们发现,不论是空间关系理解、复杂图表推理、OCR识别、高考题评测、STEM难题、写诗等各个方面,dots.vlm1的表现都远超预期。