面壁智能音频模型开源

其实做小模型，就应该像面壁智能这样，做音频模型之类的。
音频模型，图片模型，音乐模型，嵌入模型，翻译模型，都适合做一些小模型。
大模型，用云端就够了，你不要以为你本地消费级显卡能跑一些大模型，那只是能跑。
当你用长一些的文本的时候，显存占用很高，你就很慢，根本不使用。

面壁这个小音频小模型，效果不错，开源的，我看就4-5G大小。

拥有 20 亿参数、支持 30 种语言、输出 48kHz 音频，基于超过 200 万小时的多语言语音数据训练而成。

🌍 30 种语言多语种支持 —— 无需语言标签；直接输入任意支持语言的文本
🎨 语音设计 —— 仅凭自然语言描述（性别、年龄、音调、情感、语速等）即可生成全新语音；无需参考音频
🎛️ 可控克隆 —— 从短音频片段克隆任意语音，并可选地通过风格引导控制情感、语速和表达，同时保留音色
🎙️ 终极克隆 —— 提供参考音频及其对应文本，实现音频延续式克隆；忠实复现每一处语音细节
🔊 48kHz 录音室级音质输出 —— 支持 16kHz 参考音频输入，通过 AudioVAE V2 内置的超分辨率模块直接输出 48kHz 音频，无需外部升采样器
🧠 上下文感知合成 —— 自动根据文本内容推断合适的韵律和表现力
⚡ 实时流式合成 —— 在 NVIDIA RTX 4090 上实时因子（RTF）低至约 0.3，使用 Nano-VLLM 加速后可达约 0.13
📜 完全开源且可用于商业用途 —— Apache-2.0 许可证，可免费用于商业场景

模型地址：www.modelscope.cn/models/OpenBMB/VoxCPM2/summary

发布于江苏