是煦煦哟 25-10-01 03:00
微博认证:科技博主 超话小主持人(科技超话)

字节跳动近日发布了最新的豆包视觉推理模型Doubao-Seed-1.6-vision。这是豆包系列首款具备工具调用功能的视觉深度思考模型,在多模态理解与推理能力方面实现显著提升,且全面支持Responses API。
输入提示词“白纸上写了什么”,模型会在推理过程中自动调用rotate工具旋转图片后进行识别。在书籍识别场景中,对于“桌子上放了什么书”的提示词,模型会先调用zoom工具放大细节,再调用rotate工具旋转图片,最后得出结论。
针对“在超市里找穿绿色上衣的人”的需求,模型会自动调用zoom工具放大细节,然后用point工具进行标记,精准找到目标人物。在《清明上河图》局部图中找正在激烈争吵的两人,模型也能先放大细节,经多次对比分析后找出人物,并用线连接表示对话。
对于胸部X光片,输入“检查肺部是否有异常结节,若有则圈出并测量最大径,同时将歪的片子旋转扶正”的提示词,模型会依次自主调用rotate工具旋转片子,再调用zoom工具局部多次放大,完成相关分析任务。
该模型还可用于分析图片中不符合历史背景的地方、识别流程图、查找影视剧名称、根据图片细节推理所在城市或国家,以及对模糊图片进行细节放大和翻译等操作,展现出了强大的视觉推理与分析能力。#科技# http://t.cn/AX7p7h8W

发布于 福建