昨天上海 AI lab 开源了一个非常强的多模态 LLM InternLM-XComposer-2.5 。支持超高分辨率图像理解、细粒度视频理解、多轮图像对话。#ai# 另外专门针对网页制作和图文文章混排做了优化。说来可笑，国内那几家大厂到现在也没有个好用的多模态 LLM，AI lab 就开源了。详细的模型特点：长上下

昨天上海 AI lab 开源了一个非常强的多模态 LLM InternLM-XComposer-2.5 。

支持超高分辨率图像理解、细粒度视频理解、多轮图像对话。#ai#

另外专门针对网页制作和图文文章混排做了优化。

说来可笑，国内那几家大厂到现在也没有个好用的多模态 LLM，AI lab 就开源了。

详细的模型特点：

长上下文处理：IXC-2.5原生支持24K标记的输入,可扩展到96K,能处理超长文本和图像输入。

多样化视觉能力：支持超高分辨率图像理解、细粒度视频理解和多轮多图对话。

其他功能：可以生成网页和高质量文章,结合了文本和图像。

模型架构：包括轻量级视觉编码器、大语言模型和部分LoRA对齐。

测试结果：在28个基准测试中,16项超过开源模型,16项接近或超过GPT-4V和Gemini Pro。

论文地址：http://t.cn/A6QHJs5r

模型下载：http://t.cn/A6QHYXL5

模型演示：http://t.cn/A6Wy2STV http://t.cn/A6QHYoTS

发布于北京