xAI秦始皇 25-08-06 09:53
微博认证:AI博主

#用音频给生活转个场# AI 领域最新动态

阿里巴巴发布Qwen-Image:AI图像生成领域的文本渲染突破

技术革命性突破
阿里巴巴于2025年8月4日正式发布Qwen-Image,这是一个200亿参数的MMDiT图像基础模型,在复杂文本渲染方面实现了重大技术突破。该模型支持中英文双语文本渲染,具备自动布局功能,能够准确生成多行文本、段落级语义和精细化细节,在中文文本生成准确率方面比竞争对手高出40%。模型现已在Hugging Face、ModelScope等平台开源,采用Apache 2.0许可证,用户可通过通义千问聊天界面体验图像生成功能。

多场景应用能力
Qwen-Image在多个基准测试中表现优异,在GenEval、DPG、OneIG-Bench等通用图像生成基准测试以及GEdit、ImgEdit、GSO图像编辑基准测试中均达到最佳性能。模型不仅能生成宫崎骏动漫风格的复杂场景图像,还能制作企业级PPT、电影海报等专业内容,支持风格迁移、对象增减、细节增强等多种图像编辑操作。特别是在LongText-Bench、ChineseWord、TextCraft等文本渲染专项测试中,超越现有最先进模型。

行业影响与未来展望

该模型的发布标志着AI图像生成技术在文本渲染精度方面的重大进步,将大幅降低视觉内容创作的技术门槛。阿里巴巴希望通过Qwen-Image推动图像生成技术发展,激发更多创新应用场景。模型完全免费开放使用,相比每月40美元的GPT-4o等付费服务,为用户提供了高性价比的替代方案。业界分析认为,这一技术突破将重新定义AI驱动的视觉创作领域。
http://t.cn/A6F1MF4l ​​​