阿里刚刚又发布了 Qwen3-ASR, 这是一个语音识别模型, 可以在严重的噪音,干扰或者多个人同时说话的场景识别语音并转为文本。语言支持 阿拉伯语、德语、英语、西班牙语、法语、意大利语、日语、韩语、葡萄牙语、俄语、中文。
目前只提供了API,所以这应该也不是开源模型。我拖进去了一段《The Time Is Now》,看上去识别效果不错(图2)。具体就不给大家测试了,这类模型开源的也很多,例如 Whisper、Parakeet、Voxtral,现在都很成熟。
#ai创造营# #ai生活指南#
发布于 日本
