karminski-牙医
25-09-23 06:01 微博认证:AI博主

给大家带来刚发布的 Qwen3-Omni 性能解析!

(吐槽下Qwen大晚上连发3个模型,真的不想让人睡了....)

Qwen3-Omni 之前就给 transformers 提交 PR 了,所以不算突然袭击。这是个多模态模型,支持文本、图像、音频、视频输入,然后可以输出音频和视频。

模型本身大小30B-A3B, 所以大概猜这基本是 Qwen3-30B-A3B 的魔改版本 (Thinker部分)。

从模型预设的声音音色来看,选项跟 Qwen3-TTS-Flash 一样,所以估计语音部分可能就是 Qwen3-TTS-Flash 实现的(Talker 部分)。

目前官方测试数据这个模型最大的亮点是在ASR(自动语音识别)、音频理解和语音对话方面达到了与 Google Gemini 2.5 Pro 同等级别的性能。以及可以支持119种语言。

本次 Qwen3-Omni 总计细分为3个:

Qwen3-Omni-30B-A3B-Instruct, Instruct 模型,包含思考者和说话者,支持音频、视频和文本输入,以及音频和文本输出。
Qwen3-Omni-30B-A3B-Thinking,思考模型,包含思考组件,具备思维链推理能力,支持音频、视频和文本输入,输出文本。(注意,没有音频输出)
Qwen3-Omni-30B-A3B-Captioner,Qwen3-Omni-30B-A3B-Instruct 微调得到的下游音频细粒度描述模型,能够为任意音频输入生成详细、低幻觉的描述。该模型包含思考组件,支持音频输入和文本输出。

模型地址:huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

#ai创造营##ai生活指南#

发布于 日本