阿里昨晚放出了最新款ASR:Qwen3-ASR,支持流式/非流式一体化共52个语种,单次最长20分钟音频,0.6B
0.6B,128并发异步服务推理能达到2000倍吞吐,实现10 秒钟处理5小时音频
支持30种主流语言+22种中文方言+英文多国口音52种
1.7B在中文、英文、方言、歌唱、噪声场景表现优秀,部分指标超GPT-4o、Gemini、豆包
还有一款时间戳预测模型ForcedAligner-0.6B,支持11个语种任意粒度时间戳,精度优于WhisperX、Nemo-Forced-Aligner,单并发RTF能达到0.0089
可以用到像快语速、老人儿童、鬼畜重复、带BGM歌唱等的ASR场景上
github:http://t.cn/AXqYYHsv
HF:http://t.cn/AXql5g1l
MS:http://t.cn/AXqYYHsP
#Qwen3ASR##ASR#
发布于 河北
