【阿里#通义# 开源首个全模态大模型Qwen2.5-Omni-7B】阿里云Qwen团队最新发布Qwen2.5-Omni-7B，一款全模态端到端模型，核心亮点：-全模态能力：文本、图片、音频、视频都能处理，输出文本或自然语音，多场景实用性极大提升。- Thinker-Talker架构：Thinker（Transformer解码器）负责多模态信息处理

【阿里#通义# 开源首个全模态大模型Qwen2.5-Omni-7B】
阿里云Qwen团队最新发布Qwen2.5-Omni-7B，一款全模态端到端模型，核心亮点：
-全模态能力：文本、图片、音频、视频都能处理，输出文本或自然语音，多场景实用性极大提升。

- Thinker-Talker架构：Thinker（Transformer解码器）负责多模态信息处理，Talker（双轨自回归Transformer）实现流式语音生成，反应超快。

- 性能表现：在OmniBench等多模态任务中达到SOTA，单模态任务（语音识别、图像推理、视频理解）也超同规模模型，比如Qwen2.5-VL-7B和Qwen2-Audio。

- 实时交互：支持语音+视频聊天，Qwen Chat已经可以体验了，语音生成也相当自然。

在多个基准测试中，Qwen2.5-Omni 表现出色，甚至超越了许多单模态模型和闭源模型。在音频理解任务中，Qwen2.5-Omni 的综合性能达到 65.60%，文档问答任务中的准确率达到 95.2，展现了强大的视觉理解能力。

发布于新加坡