老刘说NLP_刘焕勇
26-05-30 12:19 微博认证:AI博主

【目标检测多模态大模型摸底及LocateAnything架构设计及数据构造思路解析】看开放目标检测的话题,这个任务回顾下:给一张图和一句自然语言,这个模型在图里把你说的东西用方框圈出来。例如,输入:一张图片和其中的目标物体类别,如“找出红色杯子”、“定位图中的所有按钮”、“圈出右下角的小猫”,输出:一个或多个矩形框(boundingbox),坐标:x1,y1,x2,y2。与之前的yolo模型训练自己做特定训练不同,可以有通用的方案,即开放目标检测,用多模态的方式做,而这块已经有了一些代表工作,例如:之前我们在《多模态大模型做目标检测Detect Anything思路及其工程化数据合成路线》(http://t.cn/AXzBtrUf)中介绍过目标检测任务多模态大模型,IDEA做的叫做Rex-Omni-3B,《Detect Anything via Next Point Prediction》,http://t.cn/AX6eUa3q,http://t.cn/AX6eUa3G,demo地址:http://t.cn/AX6eUa3U,详细讲了下它的训练数据构造细节。现在来看同类的第二个工作,LocateAnything-3B,《LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding》http://t.cn/AX6eUa34,GitHub地址在:http://t.cn/AX6eUa3t,http://t.cn/AX6eUa3I,demo地址在:http://t.cn/AX6eUa3x,权重地址在:http://t.cn/AX6eUa3b,打的点是基于并行框解码(PBD) 的统一视觉语言定位与检测框架,想解决的问题是传统VLM定位中逐token串行解码的延迟高,支持文档理解、GUI 定位、密集目标检测、OCR 定位等多种任务,可以看看具体怎么做的,尤其是数据分布的设计,回到数据工程。特别的,也可以回顾下通用多模态目标检测模型的一些代表,摸个底,也可以作为选型参考。http://t.cn/AX6eUa35,推荐看看,尤其是数据部分。 

发布于 北京