李沐团队开源了 Higgs Audio V2，基于超过 1000 万小时音频数据和多样化文本数据集预训练的强大音频基础模型：- Higgs Audio V2 让对话自然鲜活，如同现场交流。- Higgs Audio 通过条件调节和提示功能，可生成出色的长篇音频内容。- 音频处理管线从 16kHz 升级至 24kHz，带来更出色的音质表现。-

李沐团队开源了 Higgs Audio V2，基于超过 1000 万小时音频数据和多样化文本数据集预训练的强大音频基础模型：

- Higgs Audio V2 让对话自然鲜活，如同现场交流。
- Higgs Audio 通过条件调节和提示功能，可生成出色的长篇音频内容。
- 音频处理管线从 16kHz 升级至 24kHz，带来更出色的音质表现。
- 最小的模型可在 Jetson Orin Nano 上运行，而最新的 30 亿参数音频生成 V2 模型至少需要 RTX 4090 显卡才能实现高效推理。
- 在 EmergentTTS-Eval 基准测试中，以超过 75%的胜率领先于 ChatGPT 4o。
- 开源。
- 经过超过 1000 万小时的训练，音质更佳，声音更逼真。

B 站有介绍视频：http://t.cn/A6ke0exa

发布于北京