DeepSeek开放识图模式

【#DeepSeek大范围开放了识图模式#】#DeepSeek正式跨入图文交互时代#DeepSeek开放“识图模式”、从纯文字跨入图文交互，其实是补上了多模态理解的关键一环。

过去很多“看图”功能只是做OCR提取文字，但真正的图像识别需要理解物体、场景、布局甚至隐含的视觉逻辑。如果DeepSeek这一步确实做到了“非OCR式的图像理解”，那对用户来说，应用场景会一下子打开很多——比如看图表数据、理解设计草图、识别物体并关联知识，甚至辅助视障人士描述画面。

当然，也会好奇它的识别边界在哪：是偏日常场景，还是能处理专业图纸、医学影像、复杂表格？实时性如何？以及多轮对话中能否记住并推理图片之间的关系。

总体我觉得这是大模型走向“像人一样同时处理文字和视觉信息”的必然一步。对行业来说是好事，对用户来说多了个选择。

发布于北京