Qwen3.5-Omni上线_新浪新闻

全模态Qwen3.5-Omni上线

今日，我们正式推出全新一代全模态大模型Qwen3.5-Omni。该系列提供 Plus、Flash、Light 三种不同尺寸的 Instruct 版本，以满足多样化的应用需求。在架构上，其 Thinker 与 Talker 模块均采用了先进的 Hybrid-Attention MoE 架构，并基于海量文本、视觉数据及超过 1 亿小时的音视频数据进行了原生多模态预训练。
Qwen3.5-Omni 在全模态感知与生成能力上实现了显著突破：支持 256k 超长上下文，可处理超过 10 小时的纯音频或 400 秒的音视频输入。在语言覆盖方面，模型支持 113 种语种和方言的语音识别，以及 36 种语种和方言的语音生成。

🎯离线（Offline）
1️⃣模型性能领先
Qwen3.5-Omni-Plus在音频/音视频的理解、推理和交互任务上共取得了 215 项子任务/Benchmark的 SOTA 成绩。
2️⃣音视频caption
支持生成可控的，详细的，结构化音视频caption，并生成剧本级细粒度描述，包括自动切片，时间戳打标和人物与音频关系的详细介绍。
3️⃣Audio-Visual Vibe Coding
通过原生多模态Scaling，涌现出可以根据音视频指令直接进行coding的能力。

🎯实时(Realtime)
1️⃣语义打断
自动识别turn-talking意图，避免附和和无意义背景音打断，让对话交互更加自然流畅。
2️⃣工具调用
支持WebSearch和复杂FunctionCall的调用，模型自主判断是否需要拉起WebSearch来回应即时问题。
3️⃣端到端的语音控制和对话
自由控制声音的大小/语速/情绪等，实现拟人化语音交互。
4️⃣声音克隆
支持用户上传音色，自定义人工智能助手的音色。
5️⃣语音合成优化
针对语音不稳定性，如漏读、误读或数字发音模糊等问题，提出了ARIA技术动态对齐文本与语音单元，显著提升了语音合成的自然度与鲁棒性。

Qwen3.5-Omni 实时与离线 API 现已正式登陆阿里云百炼平台，开发者可即刻调用，体验超低延迟的多模态交互能力。Qwen Chat 同步上线，免费开放体验，欢迎前往试用！
#AI##Qwen##大模型#

发布于浙江