#多模态模型# 【科学家打造多模态开源模型,7B和1.3B小模型均开源,可部署于手机等终端】
在最近一项研究中,DeepSeek-AI 团队针对多模态大模型展开了深入探索。选择这一研究方向,背后有着多重考量。
最初,该团队围绕是否聚焦于多模态生成、多模态理解、或是两者的统一框架进行了广泛讨论。
基于对#通用人工智能# (AGI,General Artificial Intelligence)的追求——这一点也一直是他们的研究主线和研究理想,最终其决定致力于深化对于开放世界的理解。
他们相信这不仅是实现先进多模态生产的前提,长期来看也可以对多模态生成进行赋能。
比如,Sora 就使用了多模态模型对训练数据进行了大量的标注,这也证明长远来看“理解与生成”一定是相互补充、相互促进的关系。
此外,他们选择先从增强大语言模型的更多模态处理能力入手,也是鉴于该团队在语言理解领域积累的深厚经验。
这一决策同样受到了科技界广泛关注的趋势影响——即强化大模型的多模态能力,包括强化对于文本和图像的理解。
这一方向被认为是未来发展的关键,能够极大地拓展大模型在现实世界的应用范围,比如为视障人士提供辅助,或在机器人技术和日常生活自动化等领域的应用。
然而,目前市场上表现出色的多模态#大模型# 大多为闭源(如 OpenAI 的 GPT4V、Google 的 Gemini),这限制了多模态大模型在更广泛领域的应用和发展。
戳链接查看详情:http://t.cn/A6To0Ut1
