张岱樾
26-05-09 18:33 微博认证:AI博主

#DeepSeek是国产识图最强AI吗#
DeepSeek的识图模式今天大面积开放了,反复测了几轮。先说结论:它不是来抢第一的,但补上了DeepSeek生态里最痛的一块板。

之前很多人说DeepSeek终于“睁眼”了。实测下来,它走的路子跟豆包确实不一样。具体来说,它有两大特点让我印象深刻。

一、视觉推理:它懂得“边指边想”

DeepSeek这次的识图并非单纯OCR或“看图说话”,而是将坐标锚点融入推理链条。比方说数图上多少个白点这种容易眼花缭乱的问题,它会像人一样“边指边想”,通过视觉坐标一个个锁定、排除混淆,数得明明白白。在一些刁钻的识图测试中,其800x800图像理解准确率达77.2%,超越Gemini-3-Flash的76.5%和GPT-5.4的71.1%。

二、极致效率:成本极低

V4的杀手锏之一就是高效。识图模式下处理800×800图像仅耗约90个tokens,资源消耗远低于竞品数千token的用量,推理成本极低。对于动不动就丢代码截图、Excel报表的深度用户来说,毫无负担。

三、识图与豆包:赛道分化

虽然在图文理解多模态总榜上,豆包视觉模型得分90.66分超越谷歌Gemini,坐稳国内第一梯队。但DeepSeek的答案是错位竞争:豆包更懂大众化识图、多模态搜索;DeepSeek则把视觉能力服务于推理和效率,走“Agent+视觉思维”路线。

四、依然存在的局限

但它并非神功已成。知识库更新存在滞后,视错觉题等高分选手也时常翻车,且目前暂不支持图像生成或视频理解。

结合场景和成本来看,这波识图升级让DeepSeek不再是“纯理科男”,绝对值得你打开App去试一试。

发布于 广东