梁赛 25-05-06 23:19
微博认证:AI博主

Voila,又一款开源语音识别到语音生成的端到端模型,对话延迟降至195毫秒, 支持英语、中文等六种语言。

性能亮点
· Voila Benchmark:准确率30.56%,远超 SpeechGPT(13.29%)、Moshi(11.45%)
· ASR:词错误率(WER)低至2.7%(含训练数据),媲美 Whisper
· TTS:WER 低至2.8%,优于 Vall-E、Moshi

#微博兴趣创作计划# #AI生活指南# http://t.cn/A6d1rNgy

发布于 广东