Simon的白日梦
25-12-20 11:49 微博认证:科技博主

阿里通义怎么悄咪咪地又开源了一个0.5B的语音合成模型?不仅支持中英日韩,还支持方言?还只是语音克隆?跨语言文本实时生成?有点吓人了🥹
{Fun-CosyVoice3-0.5B-2512 TTS Model}

🧐 基于大语言模型的先进文本到语音系统,支持9种语言及18种中文方言零样本语音合成,在内容一致性、韵律自然度上超越前代,以低至150ms延迟实现双流处理与指令化语音生成。

➡️链接:
http://t.cn/AXUVJJY4

✨重点
●🌐[多语言支持] 覆盖中、英、日等9种语言及18+中文方言,支持跨语言零样本语音克隆
●🎤[低延迟技术] 实现文本-语音双向流处理,推理延迟仅150ms,满足实时交互场景
●🔡[发音修复] 支持中文拼音与英文CMU音素的发音补全,提升语音准确性
●📝[文本归一化] 可直接处理数字、特殊符号等复杂文本格式,无需前端模块
●⚙️[指令控制] 支持语言、方言、情感、语速、音量等多维度语音参数调节
●📊[性能指标] 在中文测试集上CER达1.21%、英文测试集WER 2.24%,speaker similarity超70%
●🚀[发展路线] 2025年12月发布基础模型及推理脚本,计划扩展至10B+参数规模
●🔄[安装指南] 需通过Git克隆仓库,Conda环境配置后下载模型并运行example.py
●🔧[技术创新] 采用双流架构与指令微调技术,解决传统TTS系统韵律不自然问题
●🎯[应用场景] 适用于多语言内容创作、智能客服语音合成及个性化语音定制

#AI白日梦想家[超话]##ai创造营##ai生活指南#

发布于 广西