就在刚刚,DeepSeek 再度更新,V4 的轮廓正逐渐清晰。
春节前夕,DeepSeek 带来新动态:在 HuggingFace 和 GitHub 上正式开源全新模型——OCR 2,并同步发布了完整论文。
与此前主打视觉压缩的初代 OCR 不同,OCR 2 旨在改进视觉-语言模型(VLMs)中的视觉编码方式。其核心创新是引入 DeepEncoder V2,通过模拟人类的视觉因果推理能力,有效解决了传统模型在处理复杂文档布局时的局限。
传统 VLMs 通常以固定的光栅扫描顺序(从左上到右下)处理图像,这种方式既不符合人类灵活基于内容扫描的视觉习惯,也在处理表格、公式、多栏文本等复杂布局时容易引入错误信息。
而 OCR 2 借助新型编码器 DeepEncoder V2,赋予模型“视觉因果流”能力,使其能够依据图像内容动态重排视觉 Token。
🧠 DeepEncoder V2 作为 OCR 2 的关键创新,具备以下设计特点:
1️⃣ 不再沿用初代 DeepEncoder 中的 CLIP 模块,转而采用基于 Qwen2-0.5B 的紧凑 LLM 架构作为视觉编码器;
2️⃣ 引入混合注意力机制:视觉 Token 使用类似 ViT 的双向注意力,而在因果流查询中则引入可学习的查询 Token,使其能关注所有视觉 Token 及先前查询,实现对视觉信息的逻辑重排序;
3️⃣ 采用级联因果推理结构,形成两级处理流程:编码器通过查询 Token 对视觉信息进行语义重排序,后续的 LLM 解码器则基于该有序序列进行推理;
4️⃣ 视觉 Token 数量压缩至 256–1120 之间,在保持高压缩比的同时,达到与 Gemini 3 Pro 最大视觉 Token 预算相当的处理能力。
📈 基于全新架构与训练,DeepSeek-OCR 2 在多项指标上实现显著提升:
1️⃣ 在 OmniDocBench v1.5 基准测试中,整体性能达 91.09%,较初代提升 3.73%;
2️⃣ 阅读顺序理解方面,编辑距离由 0.085 明显降至 0.057,体现了模型在视觉逻辑顺序把握上的进步;
3️⃣ 实际应用中的重复率大幅下降,例如在线用户日志数据中从 6.25% 降至 4.17%,证明模型具备更强的实用性与稳定性;
4️⃣ 在保持高性能的同时,仅使用最多 1120 个视觉 Token,效率优于同类模型。
展望未来,DeepSeek 计划通过级联两个一维因果推理器,进一步探索真正的二维图像理解与推理能力。
🔗 论文链接:http://t.cn/AXqMoiPb
