NVIDIA发布全双工语音模型

NVIDIA 发布了类似豆包语音聊天的大模型?

NVIDIA 放出了 PersonaPlex-7B-V1, 一个 7B 参数的全双工实时语音对话模型, 你可以理解为开源版的豆包语音聊天!

这玩意儿最牛的地方在于: 真正的全双工, 也就是说它能一边说一边听. 你打断它? 没问题, 它能立刻停下来听你说. 你俩同时说话? 也能处理. 这就是为啥叫 "Full Duplex" (全双工), 跟打电话一样自然.

技术上怎么实现的? 采用双流配置架构, 监听流和说话流同时运行. 模型基于 Moshi 架构魔改, 用 Mimi 编码器把语音压缩成神经编解码器 Token, 然后 7B 的 Transformer 同时预测文本和音频 Token, 最后 Mimi 解码器输出语音. 整个过程是流式的, 延迟极低.

还有个骚操作: 双重提示条件化. 你可以给它一段声音样本当 "声音提示", 它就能模仿那个声音风格说话; 再给个文本提示定义角色人设, 比如 "你是一个耐心的客服", 它就按这个人设来对话. 声音 + 人设, 都能定制.

跑分成绩: 在 FullDuplexBench 基准测试上, 平滑轮换成功率 90.8%, 用户打断处理成功率高达 95%, 响应延迟只有 170ms, 打断延迟 240ms. 官方说在对话动态、延迟、任务一致性上都优于其他开源和商业系统.

限制嘛: 目前只支持英语, 推荐硬件是 A100 80GB 或 H100, 不是一般人能跑得起的. 看了下训练数据用的是 Fisher English 数据集, 不到 1 万小时.

好消息是采用 NVIDIA Open Model License, 商用可用!

模型地址: huggingface.co/nvidia/personaplex-7b-v1

#HOW I AI# http://t.cn/AXGsTFwh

发布于北京