DeepSeek识图模式开放

#DeepSeek是国产识图最强AI吗#
DeepSeek的识图模式今天大面积开放了，反复测了几轮。先说结论：它不是来抢第一的，但补上了DeepSeek生态里最痛的一块板。

之前很多人说DeepSeek终于“睁眼”了。实测下来，它走的路子跟豆包确实不一样。具体来说，它有两大特点让我印象深刻。

一、视觉推理：它懂得“边指边想”

DeepSeek这次的识图并非单纯OCR或“看图说话”，而是将坐标锚点融入推理链条。比方说数图上多少个白点这种容易眼花缭乱的问题，它会像人一样“边指边想”，通过视觉坐标一个个锁定、排除混淆，数得明明白白。在一些刁钻的识图测试中，其800x800图像理解准确率达77.2%，超越Gemini-3-Flash的76.5%和GPT-5.4的71.1%。

二、极致效率：成本极低

V4的杀手锏之一就是高效。识图模式下处理800×800图像仅耗约90个tokens，资源消耗远低于竞品数千token的用量，推理成本极低。对于动不动就丢代码截图、Excel报表的深度用户来说，毫无负担。

三、识图与豆包：赛道分化

虽然在图文理解多模态总榜上，豆包视觉模型得分90.66分超越谷歌Gemini，坐稳国内第一梯队。但DeepSeek的答案是错位竞争：豆包更懂大众化识图、多模态搜索；DeepSeek则把视觉能力服务于推理和效率，走“Agent+视觉思维”路线。

四、依然存在的局限

但它并非神功已成。知识库更新存在滞后，视错觉题等高分选手也时常翻车，且目前暂不支持图像生成或视频理解。

结合场景和成本来看，这波识图升级让DeepSeek不再是“纯理科男”，绝对值得你打开App去试一试。

发布于广东