斌叔OKmath
26-06-03 08:32 微博认证:橙旭园CEO 教育博主

Qwen3.6 35B A3B 无法独自填写纸质表格。但如果给它配备 NVIDIA 的 LocateAnything-3B——HuggingFace 上排名第一的热门模型——作为它的“眼睛”,这两个小模型就能一起完成任务。

(测试内容:在空白表格图像上将每个元素放置在正确的像素位置,而不是输入到字段中。)

设置:
> Qwen 是大脑(主模型),LocateAnything 是眼睛(辅助模型作为工具)。
> 我给 Qwen 提供了一个新工具:询问“电子邮件字段在哪里?”,LocateAnything 会返回确切的 x、y、宽度、高度。
> 屏幕上的蓝色框是它的检测结果。看看它们有多精确——每个字段都精准命中。

结果:
> Qwen3.6 35B A3B + LocateAnything-3B:表格填写完成,所有信息正确。
> 姓名、出生日期、身份证、性别、婚姻状况、国籍、电子邮件、电话、地址、邮政编码:全部落入正确的字段区域。
> 字符框对齐还有点松散,但每个值都位于应在的位置。
> 9m10s,224.5k 输入,24.3k 输出,21 轮对话。

为什么重要:
> Qwen 单独无法完成这个测试。附加一个专门做一件事的 3B 模型 > 定位 > 突然间它就能了。
> 小模型的组合可以完成单个大模型的工作。

发布于 北京