【阿里#通义# 开源首个全模态大模型Qwen2.5-Omni-7B】
阿里云Qwen团队最新发布Qwen2.5-Omni-7B,一款全模态端到端模型,核心亮点:
-全模态能力:文本、图片、音频、视频都能处理,输出文本或自然语音,多场景实用性极大提升。
- Thinker-Talker架构:Thinker(Transformer解码器)负责多模态信息处理,Talker(双轨自回归Transformer)实现流式语音生成,反应超快。
- 性能表现:在OmniBench等多模态任务中达到SOTA,单模态任务(语音识别、图像推理、视频理解)也超同规模模型,比如Qwen2.5-VL-7B和Qwen2-Audio。
- 实时交互:支持语音+视频聊天,Qwen Chat已经可以体验了,语音生成也相当自然。
在多个基准测试中,Qwen2.5-Omni 表现出色,甚至超越了许多单模态模型和闭源模型。在音频理解任务中,Qwen2.5-Omni 的综合性能达到 65.60%,文档问答任务中的准确率达到 95.2,展现了强大的视觉理解能力。
发布于 新加坡
