#用音频给生活转个场# AI 领域最新动态阿里巴巴发布Qwen-Image：AI图像生成领域的文本渲染突破技术革命性突破阿里巴巴于2025年8月4日正式发布Qwen-Image，这是一个200亿参数的MMDiT图像基础模型，在复杂文本渲染方面实现了重大技术突破。该模型支持中英文双语文本渲染，具备自动布局功能，能够

#用音频给生活转个场# AI 领域最新动态

阿里巴巴发布Qwen-Image：AI图像生成领域的文本渲染突破

技术革命性突破
阿里巴巴于2025年8月4日正式发布Qwen-Image，这是一个200亿参数的MMDiT图像基础模型，在复杂文本渲染方面实现了重大技术突破。该模型支持中英文双语文本渲染，具备自动布局功能，能够准确生成多行文本、段落级语义和精细化细节，在中文文本生成准确率方面比竞争对手高出40%。模型现已在Hugging Face、ModelScope等平台开源，采用Apache 2.0许可证，用户可通过通义千问聊天界面体验图像生成功能。

多场景应用能力
Qwen-Image在多个基准测试中表现优异，在GenEval、DPG、OneIG-Bench等通用图像生成基准测试以及GEdit、ImgEdit、GSO图像编辑基准测试中均达到最佳性能。模型不仅能生成宫崎骏动漫风格的复杂场景图像，还能制作企业级PPT、电影海报等专业内容，支持风格迁移、对象增减、细节增强等多种图像编辑操作。特别是在LongText-Bench、ChineseWord、TextCraft等文本渲染专项测试中，超越现有最先进模型。

行业影响与未来展望

该模型的发布标志着AI图像生成技术在文本渲染精度方面的重大进步，将大幅降低视觉内容创作的技术门槛。阿里巴巴希望通过Qwen-Image推动图像生成技术发展，激发更多创新应用场景。模型完全免费开放使用，相比每月40美元的GPT-4o等付费服务，为用户提供了高性价比的替代方案。业界分析认为，这一技术突破将重新定义AI驱动的视觉创作领域。
http://t.cn/A6F1MF4l