李沐的语音LLM，在文本大模型基础上加入语音输入输出，开源训练方法与权重。需要10-12 GB VRAM（实测3080TI可以跑，就算剩余可用显存是8GB）没有这种模型之前，AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成，响应容易慢。而且大段文本不一定适合念出来，念出来也不一定符合“情感”

李沐的语音LLM，在文本大模型基础上加入语音输入输出，开源训练方法与权重。需要10-12 GB VRAM（实测3080TI可以跑，就算剩余可用显存是8GB）

没有这种模型之前，AI直播、AI语音、AI客服等基本靠纯文本大模型加语音识别生成，响应容易慢。而且大段文本不一定适合念出来，念出来也不一定符合“情感”

视频：BV1LGbozkEDY
开源仓库🔗github.com/boson-ai/higgs-audio/ ，其中有两篇博客
1️⃣模型架构图五
2️⃣音频词元化（Tokenizer）图六