#多模态模型# 【科学家打造多模态开源模型，7B和1.3B小模型均开源，可部署于手机等终端】在最近一项研究中，DeepSeek-AI 团队针对多模态大模型展开了深入探索。选择这一研究方向，背后有着多重考量。最初，该团队围绕是否聚焦于多模态生成、多模态理解、或是两者的统一框架进行了广泛讨论。基于

#多模态模型# 【科学家打造多模态开源模型，7B和1.3B小模型均开源，可部署于手机等终端】

在最近一项研究中，DeepSeek-AI 团队针对多模态大模型展开了深入探索。选择这一研究方向，背后有着多重考量。

最初，该团队围绕是否聚焦于多模态生成、多模态理解、或是两者的统一框架进行了广泛讨论。

基于对#通用人工智能# （AGI，General Artificial Intelligence）的追求——这一点也一直是他们的研究主线和研究理想，最终其决定致力于深化对于开放世界的理解。

他们相信这不仅是实现先进多模态生产的前提，长期来看也可以对多模态生成进行赋能。

比如，Sora 就使用了多模态模型对训练数据进行了大量的标注，这也证明长远来看“理解与生成”一定是相互补充、相互促进的关系。

此外，他们选择先从增强大语言模型的更多模态处理能力入手，也是鉴于该团队在语言理解领域积累的深厚经验。

这一决策同样受到了科技界广泛关注的趋势影响——即强化大模型的多模态能力，包括强化对于文本和图像的理解。

这一方向被认为是未来发展的关键，能够极大地拓展大模型在现实世界的应用范围，比如为视障人士提供辅助，或在机器人技术和日常生活自动化等领域的应用。

然而，目前市场上表现出色的多模态#大模型# 大多为闭源（如 OpenAI 的 GPT4V、Google 的 Gemini），这限制了多模态大模型在更广泛领域的应用和发展。

戳链接查看详情：http://t.cn/A6To0Ut1