【#DeepSeek能看见了#】#DeepSeek识图模式#
就在刚刚,DeepSeek 产品更新了「识图模式」。
一位据信是 DeepSeek 员工的 X 用户,今天早上发布了「Soon, we see you.」(很快,我们就能看到你),然后很快将推文删除了。#DeepSeek上线识图模式#
过了没几个小时,他又发了一条「Now, we see you.」(现在,我们能看到你了。)与此同时,DeepSeek 官网、手机 app,都上线了「识图模式」。
截至发稿,深度求索团队并未在 Hugging Face 上更新任何新的模型细节。这或许说明,多模态能力属于后台开启。但究竟是 V4 本身的多模态能力,还是后台路由到其他视觉模型(例如 DS-OCR、DS-VL 等模型),尚未可知。
根据爱范儿/APPSO 的测试,识图模式能够识别主流图片格式,但尚不支持 HEIF 格式。
在快速模式下,DeepSeek 的读图和结果返回速度极快。我们用一张电影剧照测试,DS 不到半秒钟就回答,这张图来自「盗火线」(Heat)。
不带图,直接询问识图模式能做什么,DS 会回答:可以进行文字提取、分析图片内容,甚至回答数学问题。我们用一道不算特别复杂的几何题直接测试,在快速模式下它也能给出正确的答案。
在经典的视觉错觉测试中,DS 识图模式通过直接读取图片色彩数值信息能够给出正确的回答。不过在错觉网格中,它仍然无法读取出「心形」的正确答案。
以及,在数手指这个经典任务上,识图模式无论是在快速模式还是深度思考模式下,都会数错。特别是开了深度思考之后,他还会把自己数晕……
另外,识图模式目前也不支持联网搜索。
