Ming-UniVision开源发布

多模态大模型新突破！Ming-UniVision 开源发布，首个基于连续统一视觉编码器（MingTok）的联合图像理解与生成系统。

它通过连续视觉token实现视觉和语言的无缝融合，支持多轮图像问答、文本生成图像及语义编辑，训练更快，推理更高效，真正做到端到端自回归生成。

主要亮点：
- 第一款连续统一视觉tokenizer，突破传统离散量化瓶颈
- 视觉理解与生成统一在同一隐空间，支持多轮复杂推理
- 3.5倍加速训练收敛，语义表达更丰富
- 支持图像重建、文本生成图像、图像描述等多模态任务

适合研究者和开发者深度探索多模态融合与生成技术。

GitHub 地址：
github.com/inclusionAI/Ming-UniVision

快来体验未来视觉语言一体化的强大能力！🚀

发布于河北