AIGCLINK 26-01-30 08:10
微博认证:AI博主

阿里昨晚放出了最新款ASR:Qwen3-ASR,支持流式/非流式一体化共52个语种,单次最长20分钟音频,0.6B

0.6B,128并发异步服务推理能达到2000倍吞吐,实现10 秒钟处理5小时音频

支持30种主流语言+22种中文方言+英文多国口音52种

1.7B在中文、英文、方言、歌唱、噪声场景表现优秀,部分指标超GPT-4o、Gemini、豆包

还有一款时间戳预测模型ForcedAligner-0.6B,支持11个语种任意粒度时间戳,精度优于WhisperX、Nemo-Forced-Aligner,单并发RTF能达到0.0089

可以用到像快语速、老人儿童、鬼畜重复、带BGM歌唱等的ASR场景上

github:http://t.cn/AXqYYHsv
HF:http://t.cn/AXql5g1l
MS:http://t.cn/AXqYYHsP

#Qwen3ASR##ASR#

发布于 河北