阿里是到底有几个图像团队啊?
先是qwen-image,然后是造相团队的z-image-turbo。
这次又来一个通义实验室的Ovis-Image-7B。
7b的模型,消费级显卡也能跑的。
介绍如下:
紧凑的7B尺度下强文本渲染:Ovis-Image是一款7B文本对图像模型,其文本渲染质量可媲美更大型的20B级系统如Qwen-Image,并在以文本为中心的场景中与领先的闭源模型如GPT4o竞争,同时保持足够小巧,能够在广泛可用的硬件上运行。
高保真度处理大量文本、布局敏感的提示:该模型在要求语言内容与渲染排版严格对齐的提示(如海报、横幅、标志、界面模型、信息图)上表现出色,能在不同字体、大小和宽高比下生成清晰、拼写正确且语义一致的文本,同时不影响整体视觉质量。
效率与可部署性:凭借7B参数预算和简化架构,Ovis-Image可安装在一块高端GPU上,内存适中,支持低延迟交互使用,并可扩展批量生产服务,为数百亿参数模型难以实现的应用带来近乎前沿的文本渲染。
模型地址:huggingface.co/AIDC-AI/Ovis-Image-7B
发布于 江苏
