DeepSeek-OCR 2提出新编码器

🔍DeepSeek-OCR 2：视觉因果流
🤖 我们提出 DeepSeek-OCR 2，旨在探索一种新型编码器 ——DeepEncoder V2 的可行性，该编码器能够根据图像语义动态重新排序视觉令牌。 📚 传统视觉语言模型（VLMs）在将视觉令牌输入大型语言模型（LLMs）时，总是采用固定的光栅扫描顺序（从左上到右下）和固定位置编码进行处理。 ❌ 然而，这与人类视觉感知相悖，人类视觉遵循由内在逻辑结构驱动的灵活且语义连贯的扫描模式，尤其对于布局复杂的图像，人类视觉会呈现出具有因果关联性的顺序处理特征。 💡 受这一认知机制启发，DeepEncoder V2 被设计为赋予编码器因果推理能力，使其能够在基于 LLM 进行内容解读之前，智能地重新排序视觉令牌。 🔍 本研究探索了一种新型范式：是否可以通过两级级联的一维因果推理结构有效实现二维图像理解，从而提供一种有望实现真正二维推理的新架构方案。 💻 代码和模型权重已公开，可通过http://t.cn/AXqMXdpP获取。

发布于四川