说说 26-03-31 12:31
微博认证:互联网从业者

阿里发布新一代全模态大模型Qwen3.5-Omni。

采用混合注意力MoE架构,通过1亿小时音视频+文本跨模态预训练 。

原生支持113种语言识别(含毛利语等濒危语种)和36种语音生成。

创新ARIA语音技术实现音色稳定,对话响应延迟降低至人类感知无差别水平。

核心突破:

视听理解:在DailyOmni等215项基准测试中全面超越Gemini 3.1 Pro ,嘈杂环境语音识别错误率下降42%(WenetSpeech基准)视频内容结构化描述准确率达98.1%(RealWorldQA测试) 。

Vibe Coding进化:非预设能力,在百万级多模态指令微调中自然涌现 。

普通用户可前往Qwen Chat免费体验,开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni模型Plus、Flash、Light三种API。

发布于 安徽