爱可可-爱生活 25-10-05 22:19
微博认证:AI博主 2025微博新锐新知博主

多模态大模型新突破!Ming-UniVision 开源发布,首个基于连续统一视觉编码器(MingTok)的联合图像理解与生成系统。

它通过连续视觉token实现视觉和语言的无缝融合,支持多轮图像问答、文本生成图像及语义编辑,训练更快,推理更高效,真正做到端到端自回归生成。

主要亮点:
- 第一款连续统一视觉tokenizer,突破传统离散量化瓶颈
- 视觉理解与生成统一在同一隐空间,支持多轮复杂推理
- 3.5倍加速训练收敛,语义表达更丰富
- 支持图像重建、文本生成图像、图像描述等多模态任务

适合研究者和开发者深度探索多模态融合与生成技术。

GitHub 地址:
github.com/inclusionAI/Ming-UniVision

快来体验未来视觉语言一体化的强大能力!🚀

发布于 河北