Simon的白日梦 24-04-28 09:10
微博认证:科技博主

开源世界的多模态也要起飞了~!基于Phi-3和LLaMA-3的LLaVA++开源多模态LLM出来了,以后图片理解打标啥的也不再需要调API了~!🥹

GitHub - mbzuai-oryx/LLaVA-pp: 🔥🔥 LLaVA++: Extending LLaVA with Phi-3 and LLaMA-3 (LLaVA LLaMA-3, LLaVA Phi-3)

🧐LLaVA++项目扩展了LLaVA模型,集成了Phi-3 Mini Instruct和LLaMA-3 Instruct模型,提升了模型的视觉和语言指令处理能力。

➡️链接:http://t.cn/A6Tru7vY

✨重点
●🚀 LLaVA++是对既有LLaVA模型的扩展,增加了Phi-3 Mini Instruct 3.8B和LLaMA-3 Instruct 8B模型,专注于提高指令遵循能力和处理学术任务的数据集。
●📊 对比基准测试显示,Phi-3和LLaMA-3模型在多模态任务中表现出色,特别是在指令遵循和视觉语言任务中的表现。
●🔧 项目提供了详细的安装指南和更新脚本,使用户能够轻松地在本地环境中部署和测试这些模型。
●🤖 模型动物园部分列出了所有可用的模型和它们的Hugging Face页面链接,方便用户获取和使用预训练权重。
●🔍 发布了新的模型集成,如Phi-3-V和LLaVA-3-V,强调了与Hugging Face的协作和模型的开源贡献。
●💡 项目文档更新了最新进展,包括模型的最新发行和细节描述,支持开发者和研究者了解项目最新动态。
●📝 提供了完整的代码库,包括训练和微调模型所需的所有脚本和模块。
●📅 最近的更新包括改进的README文件,强调了项目的开源性和模型升级的意义。

发布于 奥地利