乌鸦逻辑 26-01-27 12:57

🔍DeepSeek-OCR 2:视觉因果流
🤖 我们提出 DeepSeek-OCR 2,旨在探索一种新型编码器 ——DeepEncoder V2 的可行性,该编码器能够根据图像语义动态重新排序视觉令牌。 📚 传统视觉语言模型(VLMs)在将视觉令牌输入大型语言模型(LLMs)时,总是采用固定的光栅扫描顺序(从左上到右下)和固定位置编码进行处理。 ❌ 然而,这与人类视觉感知相悖,人类视觉遵循由内在逻辑结构驱动的灵活且语义连贯的扫描模式,尤其对于布局复杂的图像,人类视觉会呈现出具有因果关联性的顺序处理特征。 💡 受这一认知机制启发,DeepEncoder V2 被设计为赋予编码器因果推理能力,使其能够在基于 LLM 进行内容解读之前,智能地重新排序视觉令牌。 🔍 本研究探索了一种新型范式:是否可以通过两级级联的一维因果推理结构有效实现二维图像理解,从而提供一种有望实现真正二维推理的新架构方案。 💻 代码和模型权重已公开,可通过http://t.cn/AXqMXdpP获取。

发布于 四川