阿里发布Qwen3.5-Omni模型

阿里发布新一代全模态大模型Qwen3.5-Omni。

采用混合注意力MoE架构，通过1亿小时音视频+文本跨模态预训练。

原生支持113种语言识别（含毛利语等濒危语种）和36种语音生成。

创新ARIA语音技术实现音色稳定，对话响应延迟降低至人类感知无差别水平。

核心突破:

视听理解:在DailyOmni等215项基准测试中全面超越Gemini 3.1 Pro ，嘈杂环境语音识别错误率下降42%（WenetSpeech基准）视频内容结构化描述准确率达98.1%（RealWorldQA测试）。

Vibe Coding进化:非预设能力，在百万级多模态指令微调中自然涌现。

普通用户可前往Qwen Chat免费体验，开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni模型Plus、Flash、Light三种API。

发布于安徽