阿里发布Qwen3-ASR

阿里昨晚放出了最新款ASR：Qwen3-ASR，支持流式/非流式一体化共52个语种，单次最长20分钟音频，0.6B

0.6B，128并发异步服务推理能达到2000倍吞吐，实现10 秒钟处理5小时音频

支持30种主流语言+22种中文方言+英文多国口音52种

1.7B在中文、英文、方言、歌唱、噪声场景表现优秀，部分指标超GPT-4o、Gemini、豆包

还有一款时间戳预测模型ForcedAligner-0.6B，支持11个语种任意粒度时间戳，精度优于WhisperX、Nemo-Forced-Aligner，单并发RTF能达到0.0089

可以用到像快语速、老人儿童、鬼畜重复、带BGM歌唱等的ASR场景上

github：http://t.cn/AXqYYHsv
HF：http://t.cn/AXql5g1l
MS：http://t.cn/AXqYYHsP

#Qwen3ASR##ASR#

发布于河北