阿里通义开源语音合成模型

阿里通义怎么悄咪咪地又开源了一个0.5B的语音合成模型？不仅支持中英日韩，还支持方言？还只是语音克隆？跨语言文本实时生成？有点吓人了🥹
{Fun-CosyVoice3-0.5B-2512 TTS Model}

🧐 基于大语言模型的先进文本到语音系统，支持9种语言及18种中文方言零样本语音合成，在内容一致性、韵律自然度上超越前代，以低至150ms延迟实现双流处理与指令化语音生成。

➡️链接：
http://t.cn/AXUVJJY4

✨重点
●🌐[多语言支持] 覆盖中、英、日等9种语言及18+中文方言，支持跨语言零样本语音克隆
●🎤[低延迟技术] 实现文本-语音双向流处理，推理延迟仅150ms，满足实时交互场景
●🔡[发音修复] 支持中文拼音与英文CMU音素的发音补全，提升语音准确性
●📝[文本归一化] 可直接处理数字、特殊符号等复杂文本格式，无需前端模块
●⚙️[指令控制] 支持语言、方言、情感、语速、音量等多维度语音参数调节
●📊[性能指标] 在中文测试集上CER达1.21%、英文测试集WER 2.24%，speaker similarity超70%
●🚀[发展路线] 2025年12月发布基础模型及推理脚本，计划扩展至10B+参数规模
●🔄[安装指南] 需通过Git克隆仓库，Conda环境配置后下载模型并运行example.py
●🔧[技术创新] 采用双流架构与指令微调技术，解决传统TTS系统韵律不自然问题
●🎯[应用场景] 适用于多语言内容创作、智能客服语音合成及个性化语音定制

#AI白日梦想家[超话]##ai创造营##ai生活指南#

发布于广西