阿里发布Qwen3-ASR

阿里刚刚又发布了 Qwen3-ASR, 这是一个语音识别模型, 可以在严重的噪音，干扰或者多个人同时说话的场景识别语音并转为文本。语言支持阿拉伯语、德语、英语、西班牙语、法语、意大利语、日语、韩语、葡萄牙语、俄语、中文。

目前只提供了API，所以这应该也不是开源模型。我拖进去了一段《The Time Is Now》，看上去识别效果不错（图2）。具体就不给大家测试了，这类模型开源的也很多，例如 Whisper、Parakeet、Voxtral，现在都很成熟。

#ai创造营# #ai生活指南#

发布于日本