字节跳动近日发布了最新的豆包视觉推理模型Doubao-Seed-1.6-vision。这是豆包系列首款具备工具调用功能的视觉深度思考模型，在多模态理解与推理能力方面实现显著提升，且全面支持Responses API。输入提示词“白纸上写了什么”，模型会在推理过程中自动调用rotate工具旋转图片后进行识别。在书籍识别

字节跳动近日发布了最新的豆包视觉推理模型Doubao-Seed-1.6-vision。这是豆包系列首款具备工具调用功能的视觉深度思考模型，在多模态理解与推理能力方面实现显著提升，且全面支持Responses API。
输入提示词“白纸上写了什么”，模型会在推理过程中自动调用rotate工具旋转图片后进行识别。在书籍识别场景中，对于“桌子上放了什么书”的提示词，模型会先调用zoom工具放大细节，再调用rotate工具旋转图片，最后得出结论。
针对“在超市里找穿绿色上衣的人”的需求，模型会自动调用zoom工具放大细节，然后用point工具进行标记，精准找到目标人物。在《清明上河图》局部图中找正在激烈争吵的两人，模型也能先放大细节，经多次对比分析后找出人物，并用线连接表示对话。
对于胸部X光片，输入“检查肺部是否有异常结节，若有则圈出并测量最大径，同时将歪的片子旋转扶正”的提示词，模型会依次自主调用rotate工具旋转片子，再调用zoom工具局部多次放大，完成相关分析任务。
该模型还可用于分析图片中不符合历史背景的地方、识别流程图、查找影视剧名称、根据图片细节推理所在城市或国家，以及对模糊图片进行细节放大和翻译等操作，展现出了强大的视觉推理与分析能力。#科技# http://t.cn/AX7p7h8W

发布于福建