#人工智能[超话]# 9月23日,阿里通义大模型团队开源了3个模型,分别是原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS、图像编辑模型Qwen-Image-Edit-2509 。具体介绍如下 :
- Qwen3-Omni:能处理文本、图像、音频和视频等输入,同步输出文本与自然语音,实现“边听边说”流式交互。其在36项音视频基准测试中,32项取得开源领域最佳性能,22项达到SOTA水平,超越Gemini-2.5-Pro等闭源模型。该模型支持119种文本语言交互、19种语音理解语言与10种语音生成语言,还可随意定制、修改人设,具备函数调用能力,能与外部工具/服务高效集成。
- Qwen3-TTS:聚焦高自然度语音生成,支持17种音色与10种语言,包括普通话、闽南语等多种方言。其在语音稳定性与音色相似度评估中超越SeedTTS、GPT-4o-Audio-Preview等主流产品,可根据文本自动调节语气,适用于客服、播客等场景。
- Qwen-Image-Edit-2509:支持多图编辑,可拼接不同图片中的人物、物体等,实现跨图层创意合成,也支持单图编辑,人脸保真及产品保真度高,还原生支持ControlNet,包括深度图、边缘图等。功能对标谷歌Nano Banana,但开源免费,降低了AIGC创作门槛。
三款模型开发者可通过ModelScope或Hugging Face免费获取,支持本地部署与商用。 http://t.cn/AXhsziW3
发布于 福建
