量子位 25-05-23 18:13
微博认证:量子位官方微博

#多模态长文本理解有综合标准了##46款模型无一攻克128K难关#

多模态长文本理解有综合性的评判标准了!

来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。【图1】

随着多模态大模型的单次推理的文本窗口快速提升,长上下文视觉-语言模型(Long-Context Vision-Language Models; LCVLMs)应运而生,使模型能够在单次推理中处理数百张图像与较长的交错文本。

但当前,由于评估多模态长文本的基准测试稀缺,现有的测试集仅关注单个任务,比如大海捞针或者长文档问答。目前尚不清楚现有的模型在长上下文环境下的综合表现,具体在哪些任务上存在短板,以及它们对不同输入长度变化的适应能力究竟如何。

MMLongBench覆盖5大类型任务的16个不同的数据集,包含13,331个长文本样本,涵盖Visual RAG、大海捞针 (needle-in-a-haystack)、many-shot in-context learning、长文档摘要和长文档VQA。同时,丰富的任务设计兼顾了多样的图像类型,既包括自然图像(如实景照片),也涵盖了各类合成图像(如diffusion生成的图片和PDF文档截图)。

该数据集还提供了跨模态长度控制:使用image patch和text token来计算上下文长度,严格标准化8K/16K/32K/64K/128K输入长度。

其评测数据集以及评测代码现已全部开源。

作者对46个领先的多模态大语言模型进行基准测试,其中包括Gemini-2.5-Pro、Claude-3.7-Sonnet、GPT-4o和Qwen2.5-VL-72B。

结果显示,无论闭源还是开源模型,在长上下文视觉-语言任务上都面临较大挑战,仍有巨大的提升空间。

此外,进一步的错误分析表明,(1) OCR能力和 (2) 跨模态检索能力仍然是当前LCVLMs在处理长文本时的瓶颈。

了解更多,欢迎点击:http://t.cn/A6gTdnL3

论文:http://t.cn/A6gTdnLu
主页:http://t.cn/A6gTdnL1
代码:http://t.cn/A6gTdnLB
数据集:http://t.cn/A6gTdnLr