DeepSeek突然更新了「识图模式」,正式入门了多模态的能力圈。
看了一下思维链,是读取图片特征之后转化成文本描述,再和数据库里做对比,所以准确率的波动目前还比较大。
发布于 北京
