2025年9月18日,面壁智能与清华大学深圳国际研究生院人机语音交互实验室联合发布了语音生成模型VoxCPM,并在GitHub、Hugging Face和ModelScope等平台开源。
VoxCPM是一款轻量型模型,仅0.5B参数。它采用创新的端到端架构,融合层次化语言建模与局部扩散生成技术。其具备零样本声音克隆能力,仅需少量参考音频即可复刻目标音色,还能处理公式符号音频和自定义发音修正,可模拟方言,根据文本生成带有合适腔调、韵律风格的语音。
在权威语音合成评测榜单Seed-TTS-EVAL中,VoxCPM在词错误率和音色相似度等方面表现出色,达到行业领先水平。在一张NVIDIA RTX4090显卡上,其实时因子约为0.17,支持流式输出,能满足高质量实时交互需求。
开发者可通过Hugging Face的PlayGround平台在线体验VoxCPM,也可下载模型到本地部署,或使用API接口将其集成到现有应用中。开源协议允许学术研究和商业使用。 #科技#
发布于 福建
