通义实验室 26-01-29 22:27
微博认证:通义大模型官方微博

[打call]语音识别新标杆!Qwen3-ASR 系列震撼开源!

依托创新的 AuT 语音编码器与 Qwen3-Omni 基座强大的多模态能力,我们带来了三款诚意之作,旨在为社区提供精准度与效率兼备的全新选择:
✨ Qwen3-ASR-1.7B:全能性能王者
多语种制霸: 最高支持30种语言,在 20 个主流语种上的表现处于开源领域领跑地位。
方言与口音: 深度覆盖 22 种中文方言与 16 国英文口音,识别准确率可媲美甚至超越顶尖商业级解决方案。
无惧复杂场景: 无论是歌唱识别、极低信噪比环境,还是老人儿童语音,均能保持极高的鲁棒性与稳定性。
⚡ Qwen3-ASR-0.6B:效率与性能的完美平衡
极速推理: 专为高并发场景设计,在保证语音识别准确率的情况下,128 并发异步服务推理能够达到 2000 倍吞吐,即 10 秒钟处理五个小时以上的音频。
🎯 Qwen3-ForcedAligner-0.6B:高精度强制对齐
精准时间戳: 支持 11 种语言的高精度强制对齐,其时间戳预测精度与常用主流工具相比取得更优表现,为专业级音频处理提供更强支持。
🚀 立即体验:
魔搭社区、Hugging Face、GitHub
#通义##Qwen#

发布于 浙江