阿里推出Ovis-Image-7B

阿里是到底有几个图像团队啊？
先是qwen-image，然后是造相团队的z-image-turbo。
这次又来一个通义实验室的Ovis-Image-7B。

7b的模型，消费级显卡也能跑的。

介绍如下：
紧凑的7B尺度下强文本渲染：Ovis-Image是一款7B文本对图像模型，其文本渲染质量可媲美更大型的20B级系统如Qwen-Image，并在以文本为中心的场景中与领先的闭源模型如GPT4o竞争，同时保持足够小巧，能够在广泛可用的硬件上运行。

高保真度处理大量文本、布局敏感的提示：该模型在要求语言内容与渲染排版严格对齐的提示（如海报、横幅、标志、界面模型、信息图）上表现出色，能在不同字体、大小和宽高比下生成清晰、拼写正确且语义一致的文本，同时不影响整体视觉质量。

效率与可部署性：凭借7B参数预算和简化架构，Ovis-Image可安装在一块高端GPU上，内存适中，支持低延迟交互使用，并可扩展批量生产服务，为数百亿参数模型难以实现的应用带来近乎前沿的文本渲染。

模型地址：huggingface.co/AIDC-AI/Ovis-Image-7B

发布于江苏