千问大模型 26-03-30 21:37
微博认证:千问大模型官方

全模态Qwen3.5-Omni上线

今日,我们正式推出全新一代全模态大模型Qwen3.5-Omni。该系列提供 Plus、Flash、Light 三种不同尺寸的 Instruct 版本,以满足多样化的应用需求。在架构上,其 Thinker 与 Talker 模块均采用了先进的 Hybrid-Attention MoE 架构,并基于海量文本、视觉数据及超过 1 亿小时的音视频数据进行了原生多模态预训练。
Qwen3.5-Omni 在全模态感知与生成能力上实现了显著突破:支持 256k 超长上下文,可处理超过 10 小时的纯音频或 400 秒的音视频输入。在语言覆盖方面,模型支持 113 种 语种和方言的语音识别,以及 36 种语种和方言的语音生成。

🎯离线(Offline)
1️⃣模型性能领先
Qwen3.5-Omni-Plus在音频/音视频的理解、推理和交互任务上共取得了 215 项子任务/Benchmark的 SOTA 成绩。
2️⃣音视频caption
支持生成可控的,详细的,结构化音视频caption,并生成剧本级细粒度描述,包括自动切片,时间戳打标和人物与音频关系的详细介绍。
3️⃣Audio-Visual Vibe Coding
通过原生多模态Scaling,涌现出可以根据音视频指令直接进行coding的能力。

🎯实时(Realtime)
1️⃣语义打断
自动识别turn-talking意图,避免附和和无意义背景音打断,让对话交互更加自然流畅。
2️⃣工具调用
支持WebSearch和复杂FunctionCall的调用,模型自主判断是否需要拉起WebSearch来回应即时问题。
3️⃣端到端的语音控制和对话
自由控制声音的大小/语速/情绪等,实现拟人化语音交互。
4️⃣声音克隆
支持用户上传音色,自定义人工智能助手的音色。
5️⃣语音合成优化
针对语音不稳定性,如漏读、误读或数字发音模糊等问题,提出了ARIA技术动态对齐文本与语音单元,显著提升了语音合成的自然度与鲁棒性。

Qwen3.5-Omni 实时与离线 API 现已正式登陆阿里云百炼平台,开发者可即刻调用,体验超低延迟的多模态交互能力。Qwen Chat 同步上线,免费开放体验,欢迎前往试用!
#AI##Qwen##大模型#

发布于 浙江