#DeepSeek灰测识图模式# DeepSeek憋了这么久大的,最近终于开始尽情释放了。上周他们刚悄咪咪把 V4给端了上来,紧接着就是连着两波大降价。昨天又突然来了给我推送了一波灰测DeepSeek,有多模态能力了,准确来说是识图。DeepSeek因为没多模态,已经被诟病很久了,而现在,这块短板终于被补齐了。
首先,它确实是摆脱了传统的OCR,真能看到图片全貌了,这点大伙可以放心。梗图翻译的不错,同事随手在车上拍的照很模糊,它也分析出了是什么车。考虑到D老师是数学高手,我们又给它传了一张数学相关的梗图,D老师的解释,依旧非常完美。
根据我的实测,D老师目前这个版本,也没有到天下无敌的地步。例如图5给它丢了一张图,非常美丽的地球夜景。DeepSeek说这张照片来自国际空间站。但其实,这张照片是一张晚霞下面的城市,这是倒悬过来的视角。。。我丢给了公认的多模态高手Gemini,它还真看出来了。
包括对一些人脸的识别,也是偶尔抽风,比如我把豆包的图片扔给了它,它给我识别的是B站UP主罗翔。还有经典的视错觉问题,D老师思考过程是对的,但因为仔细读题,觉得这是给它的错觉,所以选择欺骗自己,给出了错误答案。。。
综合评价,可以给到一个神鬼二象性,夯的时候夯,拉的时候拉完了。但话说回来,毕竟是灰测,咱还是得给它一些适应这个世界的时间。 也期待 DeepSeek 能把识图的多模态能力,尽快更新到V4新模型的API上面吧。
发布于 浙江
