类似阿里Qwen3-VL-8B这种视觉模型,可以直接生成结构化数据。
比如说图1的发票,可以直接给你生成json,那么你的发票数据就可以直接用程序处理了。
想象一下,你有几百张,甚至几千张发票,你一张一张录入,要搞死你。
这个模型一下就全给你搞到电脑里面去了,你就核对一下即可。
8B的模型,效果还是差一些,模型比较大的,就挺准的。
迟早有一天,在这个方面,模型会超过人的识别能力。
我们帮人搞了一个这种系统,客户觉得非常满意。
发布于 江苏
