歸藏的AI工具箱 24-07-05 11:12
微博认证:AI博主

昨天上海 AI lab 开源了一个非常强的多模态 LLM InternLM-XComposer-2.5 。

支持超高分辨率图像理解、细粒度视频理解、多轮图像对话。#ai#

另外专门针对网页制作和图文文章混排做了优化。

说来可笑,国内那几家大厂到现在也没有个好用的多模态 LLM,AI lab 就开源了。

详细的模型特点:

长上下文处理:IXC-2.5原生支持24K标记的输入,可扩展到96K,能处理超长文本和图像输入。

多样化视觉能力:支持超高分辨率图像理解、细粒度视频理解和多轮多图对话。

其他功能:可以生成网页和高质量文章,结合了文本和图像。

模型架构:包括轻量级视觉编码器、大语言模型和部分LoRA对齐。

测试结果:在28个基准测试中,16项超过开源模型,16项接近或超过GPT-4V和Gemini Pro。

论文地址:http://t.cn/A6QHJs5r

模型下载:http://t.cn/A6QHYXL5

模型演示:http://t.cn/A6Wy2STV http://t.cn/A6QHYoTS

发布于 北京