Qwen3-omni 已经给 transformers 提交 PR了，估计马上就要发布了。omni 系列是端到端的跨模态模型，可以输入文本、图像、音频和视频，然后输出文本和语音。上次 Qwen2.5-Omni-7B 是4月30日发布的。很明显这个模型的定位是端侧模型，特别适合智能手机助理这种任务场景。#ai生活指南# #ai创造营#

Qwen3-omni 已经给 transformers 提交 PR了，估计马上就要发布了。

omni 系列是端到端的跨模态模型，可以输入文本、图像、音频和视频，然后输出文本和语音。上次 Qwen2.5-Omni-7B 是4月30日发布的。很明显这个模型的定位是端侧模型，特别适合智能手机助理这种任务场景。

#ai生活指南# #ai创造营#

发布于日本