PersonaPlex 7B开源语音模型

PersonaPlex 7B：让 AI 语音对话像真人一样自然的开源模型

NVIDIA 发布的 PersonaPlex 是一个 7B 参数的全双工（full-duplex）实时语音对话模型。传统语音 AI 采用“说-停-听-思考-回复”的串行模式，常有明显延迟和生硬感。
PersonaPlex 最大突破是同时听和说，支持自然打断（interrupt）、重叠说话和即时反馈（如“嗯”“对”），对话流畅度大幅提升，几乎零延迟。

核心亮点
✅ 全双工交互：双流设计，一边持续接收用户语音，一边生成回应，能实时调整，像和真人聊天。
✅ Persona 控制：通过文本角色提示（例如“你是一个幽默的老师”）+ 音频语音样本，自定义性格和声音。
✅ 架构：基于 Kyutai 的 Moshi 架构，使用 Mimi 语音编解码器（24kHz），端到端直接处理音频，省去传统 ASR → LLM → TTS 管道。
✅ 开源友好：100% 开源，Hugging Face 下载 nvidia/personaplex-7b-v1，GitHub 仓库提供代码，本地运行无 API 费用，隐私更好。

上手建议
1. 在 Hugging Face 接受模型许可
2. Clone GitHub 仓库：github.com/NVIDIA/personaplex
3. 推荐硬件：≥24GB VRAM GPU（如 RTX 3090/4090），Linux + CUDA 环境

一句话总结：
PersonaPlex 7B 用开源方式解决了语音 AI“说话不自然”的痛点，让人机对话真正接近真人实时交流，适合语音助手、客服、教育等场景。
#How I AI#

发布于新加坡