Qwen3.6组合填表成功

Qwen3.6 35B A3B 无法独自填写纸质表格。但如果给它配备 NVIDIA 的 LocateAnything-3B——HuggingFace 上排名第一的热门模型——作为它的“眼睛”，这两个小模型就能一起完成任务。

（测试内容：在空白表格图像上将每个元素放置在正确的像素位置，而不是输入到字段中。）

设置：
> Qwen 是大脑（主模型），LocateAnything 是眼睛（辅助模型作为工具）。
> 我给 Qwen 提供了一个新工具：询问“电子邮件字段在哪里？”，LocateAnything 会返回确切的 x、y、宽度、高度。
> 屏幕上的蓝色框是它的检测结果。看看它们有多精确——每个字段都精准命中。

结果：
> Qwen3.6 35B A3B + LocateAnything-3B：表格填写完成，所有信息正确。
> 姓名、出生日期、身份证、性别、婚姻状况、国籍、电子邮件、电话、地址、邮政编码：全部落入正确的字段区域。
> 字符框对齐还有点松散，但每个值都位于应在的位置。
> 9m10s，224.5k 输入，24.3k 输出，21 轮对话。

为什么重要：
> Qwen 单独无法完成这个测试。附加一个专门做一件事的 3B 模型 > 定位 > 突然间它就能了。
> 小模型的组合可以完成单个大模型的工作。

发布于北京