苹果加入战场,发布了自己的大语言模型 MM1,这是一个最高有 30B 规模的多模态 LLM 。#ai##llm#
论文关键信息:
图像分辨率、图像编码器的预训练数据和模型大小对性能有显著影响。
视觉-语言连接器的设计相比之下影响较小。
预训练数据的混合比例对于少样本和零样本(zero-shot)性能至关重要。
通过预训练和SFT,MM1模型在多个基准测试中取得了SOTA性能。
MM1模型展现了一些吸引人的特性,如上下文内预测、多图像推理和少样本学习能力。
模型实现方案:
架构组件和数据选择的消融实验:
图像编码器:研究了不同预训练图像编码器的影响,以及图像分辨率和图像标记数量的重要性。
视觉-语言连接器:
探讨了不同类型的视觉-语言连接器(如平均池化、注意力池化和C-Abstractor)对模型性能的影响。
预训练数据:使用了图像标题、交错的图像-文本和纯文本数据,研究了这些数据类型及其混合比例对模型性能的影响。
模型构建和预训练:
通过扩大模型规模(从3B到30B参数),包括密集模型和混合专家(mixture-of-experts,简称MoE)变体,构建了一系列性能优越的多模态模型。
在预训练过程中,使用了大规模的多模态数据集,并通过特定的数据混合比例来训练模型。
性能评估和结果:
评估了预训练模型在多个基准测试中的性能,包括图像标题和视觉问答(VQA)任务。
通过监督式微调(Supervised Fine-Tuning,简称SFT),在一系列多模态基准测试中取得了有竞争力的性能。
论文地址:http://t.cn/A6YFeuAi
发布于 北京
