DeepseekOCR2发布_新浪新闻

Deepseek迭次了Deepseek OCR，算是发布了DeepseekOCR2

核心创新

• 动态视觉Token重排：DeepEncoder V2可根据图像语义动态调整视觉Token的处理顺序，突破了传统VLM模型固定光栅扫描顺序的局限。

• 因果推理结构：采用两级级联的一维因果推理结构，模拟人类视觉的语义连贯扫描模式，能更高效处理复杂布局的图像。

• LLM风格视觉编码器：将CLIP组件替换为Qwen2-500M大语言模型架构，通过自定义注意力掩码实现因果注意力机制，支持视觉信息的渐进式因果重排。

发布于广东