给大家带来刚发布的 Qwen3-Omni 性能解析！（吐槽下Qwen大晚上连发3个模型，真的不想让人睡了....）Qwen3-Omni 之前就给 transformers 提交 PR 了，所以不算突然袭击。这是个多模态模型，支持文本、图像、音频、视频输入，然后可以输出音频和视频。模型本身大小30B-A3B, 所以大概猜这基本是 Qwen

给大家带来刚发布的 Qwen3-Omni 性能解析！

（吐槽下Qwen大晚上连发3个模型，真的不想让人睡了....）

Qwen3-Omni 之前就给 transformers 提交 PR 了，所以不算突然袭击。这是个多模态模型，支持文本、图像、音频、视频输入，然后可以输出音频和视频。

模型本身大小30B-A3B, 所以大概猜这基本是 Qwen3-30B-A3B 的魔改版本（Thinker部分）。

从模型预设的声音音色来看，选项跟 Qwen3-TTS-Flash 一样，所以估计语音部分可能就是 Qwen3-TTS-Flash 实现的（Talker 部分）。

目前官方测试数据这个模型最大的亮点是在ASR（自动语音识别）、音频理解和语音对话方面达到了与 Google Gemini 2.5 Pro 同等级别的性能。以及可以支持119种语言。

本次 Qwen3-Omni 总计细分为3个：

Qwen3-Omni-30B-A3B-Instruct， Instruct 模型，包含思考者和说话者，支持音频、视频和文本输入，以及音频和文本输出。
Qwen3-Omni-30B-A3B-Thinking，思考模型，包含思考组件，具备思维链推理能力，支持音频、视频和文本输入，输出文本。（注意，没有音频输出）
Qwen3-Omni-30B-A3B-Captioner，Qwen3-Omni-30B-A3B-Instruct 微调得到的下游音频细粒度描述模型，能够为任意音频输入生成详细、低幻觉的描述。该模型包含思考组件，支持音频输入和文本输出。

模型地址：huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

#ai创造营##ai生活指南#

发布于日本