阿里的语音模型cosyVoice 3.0发布并开源了。
只要3秒语音就能完成克隆,速度也提升了很多。
支持9种常见语言和18种方言。
中文的名字叫百聆,相比2.0提升很多,也更流畅。
具体介绍如下:
Fun-CosyVoice 3.0 是一款基于大型语言模型(LLM)的先进文本转语音(TTS)系统,在内容一致性、说话者相似性和韵律自然性方面超越了前代 CosyVoice 2.0。它专为野外零帧多语言语音合成而设计。
主要特征
语言覆盖:涵盖9种常用语言(中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语),18+种中文方言/口音(广东、闽南、四川、东北、山西、山西、上海、天津、山东、宁夏、甘肃等),同时支持多语言/跨语言零声段克隆。
内容一致性与自然性:在内容一致性、说话者相似性和韵律自然性方面达到最先进的表现。
发音修复:支持中文拼音和英语CMU音素的发音修复,提供更强的可控性,适合制作使用。
文本规范化:支持无需传统前端模块即可读取数字、特殊符号及各种文本格式。
双流式流:支持文本输入和音频输出流式流媒体,延迟低至150毫秒,同时保持高质量音频输出。
教学支持:支持多种指令,如语言、方言、情感、速度、音量等。
代码库:github.com/FunAudioLLM/CosyVoice
模型地址:www.modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512/summary
发布于 江苏
