李沐团队开源了 Higgs Audio V2,基于超过 1000 万小时音频数据和多样化文本数据集预训练的强大音频基础模型:
- Higgs Audio V2 让对话自然鲜活,如同现场交流。
- Higgs Audio 通过条件调节和提示功能,可生成出色的长篇音频内容。
- 音频处理管线从 16kHz 升级至 24kHz,带来更出色的音质表现。
- 最小的模型可在 Jetson Orin Nano 上运行,而最新的 30 亿参数音频生成 V2 模型至少需要 RTX 4090 显卡才能实现高效推理。
- 在 EmergentTTS-Eval 基准测试中,以超过 75%的胜率领先于 ChatGPT 4o。
- 开源。
- 经过超过 1000 万小时的训练,音质更佳,声音更逼真。
B 站有介绍视频:http://t.cn/A6ke0exa
发布于 北京
