阿里语音模型3.0发布

阿里的语音模型cosyVoice 3.0发布并开源了。
只要3秒语音就能完成克隆，速度也提升了很多。
支持9种常见语言和18种方言。
中文的名字叫百聆，相比2.0提升很多，也更流畅。

具体介绍如下：
Fun-CosyVoice 3.0 是一款基于大型语言模型（LLM）的先进文本转语音（TTS）系统，在内容一致性、说话者相似性和韵律自然性方面超越了前代 CosyVoice 2.0。它专为野外零帧多语言语音合成而设计。

主要特征
语言覆盖：涵盖9种常用语言（中文、英语、日语、韩语、德语、西班牙语、法语、意大利语、俄语），18+种中文方言/口音（广东、闽南、四川、东北、山西、山西、上海、天津、山东、宁夏、甘肃等），同时支持多语言/跨语言零声段克隆。
内容一致性与自然性：在内容一致性、说话者相似性和韵律自然性方面达到最先进的表现。
发音修复：支持中文拼音和英语CMU音素的发音修复，提供更强的可控性，适合制作使用。
文本规范化：支持无需传统前端模块即可读取数字、特殊符号及各种文本格式。
双流式流：支持文本输入和音频输出流式流媒体，延迟低至150毫秒，同时保持高质量音频输出。
教学支持：支持多种指令，如语言、方言、情感、速度、音量等。

代码库：github.com/FunAudioLLM/CosyVoice
模型地址：www.modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512/summary

发布于江苏