小红书人文智能实验室(Humane Intelligence Lab,hi lab)在昨天低调开源了视觉语言模型dots.vlm1,给VLM带来了意想不到的惊喜。
仔细看了看这个团队的架构和愿景,发现「hi lab」是由小红书内部大模型技术与应用产品团队合并升级而来,在关于hi lab的官方介绍中,特别强调了「将研发重点放在了多元智能形态上」。
他们希望通过融合人际智能、空间智能、音乐智能、人文关怀等各种智能形态,不断拓展人机交互的可能性。
对多模态的信仰和投入的决心可见一斑。
而dots.vlm1,正是小红书hi lab研发并开源的首个多模态大模型。
这个模型基于hi lab全自研的12亿参数NaViT视觉编码器和DeepSeek V3的大语言模型构建,在视觉的理解和推理任务上均有不俗的表现,接近了SOTA水平,并且在纯文本任务中仍保持竞争力。
在主要的视觉评测集上,比如MMMU/MathVision/OCR Reasoning,dots.vlm1的整体表现已接近当前领先模型Gemini 2.5 Pro与Seed-VL1.5 Thinking,显示出较强的图文理解与推理能力。
在典型的文本推理任务(如AIME、GPQA、LiveCodeBench)上,dots.vlm1的表现大致相当于DeepSeek-R1-0528,在数学和代码能力上已具备一定的通用性,但在GPQA等更多样的推理任务上仍存在差距。
总体来看,dots.vlm1在视觉多模态能力方面已接近SOTA水平。
Github Repo:
http://t.cn/A6FkIWDD
Huggingface Model:
http://t.cn/A6FkIWDe
Demo :
http://t.cn/A6FkIWDg
在实测中,我们发现,不论是空间关系理解、复杂图表推理、OCR识别、高考题评测、STEM难题、写诗等各个方面,dots.vlm1的表现都远超预期。
