【目标检测多模态大模型摸底及LocateAnything架构设计及数据构造思路解析】看开放目标检测的话题，这个任务回顾下：给一张图和一句自然语言，这个模型在图里把你说的东西用方框圈出来。例如，输入：一张图片和其中的目标物体类别，如“找出红色杯子”、“定位图中的所有按钮”、“圈出右下角的小猫”，

【目标检测多模态大模型摸底及LocateAnything架构设计及数据构造思路解析】看开放目标检测的话题，这个任务回顾下：给一张图和一句自然语言，这个模型在图里把你说的东西用方框圈出来。例如，输入：一张图片和其中的目标物体类别，如“找出红色杯子”、“定位图中的所有按钮”、“圈出右下角的小猫”，输出：一个或多个矩形框（boundingbox），坐标：x1,y1,x2,y2。与之前的yolo模型训练自己做特定训练不同，可以有通用的方案，即开放目标检测，用多模态的方式做，而这块已经有了一些代表工作，例如：之前我们在《多模态大模型做目标检测Detect Anything思路及其工程化数据合成路线》(http://t.cn/AXzBtrUf)中介绍过目标检测任务多模态大模型，IDEA做的叫做Rex-Omni-3B，《Detect Anything via Next Point Prediction》，http://t.cn/AX6eUa3q，http://t.cn/AX6eUa3G，demo地址：http://t.cn/AX6eUa3U，详细讲了下它的训练数据构造细节。现在来看同类的第二个工作，LocateAnything-3B，《LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding》http://t.cn/AX6eUa34，GitHub地址在：http://t.cn/AX6eUa3t，http://t.cn/AX6eUa3I，demo地址在：http://t.cn/AX6eUa3x，权重地址在：http://t.cn/AX6eUa3b，打的点是基于并行框解码（PBD）的统一视觉语言定位与检测框架，想解决的问题是传统VLM定位中逐token串行解码的延迟高，支持文档理解、GUI 定位、密集目标检测、OCR 定位等多种任务，可以看看具体怎么做的，尤其是数据分布的设计，回到数据工程。特别的，也可以回顾下通用多模态目标检测模型的一些代表，摸个底，也可以作为选型参考。http://t.cn/AX6eUa35，推荐看看，尤其是数据部分。

发布于北京