昨天上海 AI lab 开源了一个非常强的多模态 LLM InternLM-XComposer-2.5 。
支持超高分辨率图像理解、细粒度视频理解、多轮图像对话。#ai#
另外专门针对网页制作和图文文章混排做了优化。
说来可笑,国内那几家大厂到现在也没有个好用的多模态 LLM,AI lab 就开源了。
详细的模型特点:
长上下文处理:IXC-2.5原生支持24K标记的输入,可扩展到96K,能处理超长文本和图像输入。
多样化视觉能力:支持超高分辨率图像理解、细粒度视频理解和多轮多图对话。
其他功能:可以生成网页和高质量文章,结合了文本和图像。
模型架构:包括轻量级视觉编码器、大语言模型和部分LoRA对齐。
测试结果:在28个基准测试中,16项超过开源模型,16项接近或超过GPT-4V和Gemini Pro。
论文地址:http://t.cn/A6QHJs5r
模型下载:http://t.cn/A6QHYXL5
模型演示:http://t.cn/A6Wy2STV http://t.cn/A6QHYoTS
发布于 北京
