Qwen3-omni 已经给 transformers 提交 PR了,估计马上就要发布了。
omni 系列是端到端的跨模态模型,可以输入文本、图像、音频和视频,然后输出文本和语音。 上次 Qwen2.5-Omni-7B 是4月30日发布的。很明显这个模型的定位是端侧模型,特别适合智能手机助理这种任务场景。
#ai生活指南# #ai创造营#
发布于 日本
Qwen3-omni 已经给 transformers 提交 PR了,估计马上就要发布了。
omni 系列是端到端的跨模态模型,可以输入文本、图像、音频和视频,然后输出文本和语音。 上次 Qwen2.5-Omni-7B 是4月30日发布的。很明显这个模型的定位是端侧模型,特别适合智能手机助理这种任务场景。
#ai生活指南# #ai创造营#