郭局 26-05-09 13:02
微博认证:数码博主 头条文章作者

【#DeepSeek大范围开放了识图模式#】#DeepSeek正式跨入图文交互时代#DeepSeek开放“识图模式”、从纯文字跨入图文交互,其实是补上了多模态理解的关键一环。

过去很多“看图”功能只是做OCR提取文字,但真正的图像识别需要理解物体、场景、布局甚至隐含的视觉逻辑。如果DeepSeek这一步确实做到了“非OCR式的图像理解”,那对用户来说,应用场景会一下子打开很多——比如看图表数据、理解设计草图、识别物体并关联知识,甚至辅助视障人士描述画面。

当然,也会好奇它的识别边界在哪:是偏日常场景,还是能处理专业图纸、医学影像、复杂表格?实时性如何?以及多轮对话中能否记住并推理图片之间的关系。

总体我觉得这是大模型走向“像人一样同时处理文字和视觉信息”的必然一步。对行业来说是好事,对用户来说多了个选择。

发布于 北京