Deepseek迭次了Deepseek OCR,算是发布了DeepseekOCR2
核心创新
• 动态视觉Token重排:DeepEncoder V2可根据图像语义动态调整视觉Token的处理顺序,突破了传统VLM模型固定光栅扫描顺序的局限。
• 因果推理结构:采用两级级联的一维因果推理结构,模拟人类视觉的语义连贯扫描模式,能更高效处理复杂布局的图像。
• LLM风格视觉编码器:将CLIP组件替换为Qwen2-500M大语言模型架构,通过自定义注意力掩码实现因果注意力机制,支持视觉信息的渐进式因果重排。
发布于 广东
