#人工智能[超话]# 9月23日，阿里通义大模型团队开源了3个模型，分别是原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509 。具体介绍如下： - Qwen3-Omni：能处理文本、图像、音频和视频等输入，同步输出文本与自然语音，实现“边听边说”流式交互。其在36项音

#人工智能[超话]# 9月23日，阿里通义大模型团队开源了3个模型，分别是原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509 。具体介绍如下：

- Qwen3-Omni：能处理文本、图像、音频和视频等输入，同步输出文本与自然语音，实现“边听边说”流式交互。其在36项音视频基准测试中，32项取得开源领域最佳性能，22项达到SOTA水平，超越Gemini-2.5-Pro等闭源模型。该模型支持119种文本语言交互、19种语音理解语言与10种语音生成语言，还可随意定制、修改人设，具备函数调用能力，能与外部工具/服务高效集成。
- Qwen3-TTS：聚焦高自然度语音生成，支持17种音色与10种语言，包括普通话、闽南语等多种方言。其在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品，可根据文本自动调节语气，适用于客服、播客等场景。
- Qwen-Image-Edit-2509：支持多图编辑，可拼接不同图片中的人物、物体等，实现跨图层创意合成，也支持单图编辑，人脸保真及产品保真度高，还原生支持ControlNet，包括深度图、边缘图等。功能对标谷歌Nano Banana，但开源免费，降低了AIGC创作门槛。

三款模型开发者可通过ModelScope或Hugging Face免费获取，支持本地部署与商用。 http://t.cn/AXhsziW3

发布于福建