其实做小模型,就应该像面壁智能这样,做音频模型之类的。
音频模型,图片模型,音乐模型,嵌入模型,翻译模型,都适合做一些小模型。
大模型,用云端就够了,你不要以为你本地消费级显卡能跑一些大模型,那只是能跑。
当你用长一些的文本的时候,显存占用很高,你就很慢,根本不使用。
面壁这个小音频小模型,效果不错,开源的,我看就4-5G大小。
拥有 20 亿参数、支持 30 种语言、输出 48kHz 音频,基于超过 200 万小时 的多语言语音数据训练而成。
🌍 30 种语言多语种支持 —— 无需语言标签;直接输入任意支持语言的文本
🎨 语音设计 —— 仅凭自然语言描述(性别、年龄、音调、情感、语速等)即可生成全新语音;无需参考音频
🎛️ 可控克隆 —— 从短音频片段克隆任意语音,并可选地通过风格引导控制情感、语速和表达,同时保留音色
🎙️ 终极克隆 —— 提供参考音频及其对应文本,实现音频延续式克隆;忠实复现每一处语音细节
🔊 48kHz 录音室级音质输出 —— 支持 16kHz 参考音频输入,通过 AudioVAE V2 内置的超分辨率模块直接输出 48kHz 音频,无需外部升采样器
🧠 上下文感知合成 —— 自动根据文本内容推断合适的韵律和表现力
⚡ 实时流式合成 —— 在 NVIDIA RTX 4090 上实时因子(RTF)低至约 0.3,使用 Nano-VLLM 加速后可达约 0.13
📜 完全开源且可用于商业用途 —— Apache-2.0 许可证,可免费用于商业场景
模型地址:www.modelscope.cn/models/OpenBMB/VoxCPM2/summary
发布于 江苏
