PersonaPlex 7B:让 AI 语音对话像真人一样自然的开源模型
NVIDIA 发布的 PersonaPlex 是一个 7B 参数的全双工(full-duplex)实时语音对话模型。传统语音 AI 采用“说-停-听-思考-回复”的串行模式,常有明显延迟和生硬感。
PersonaPlex 最大突破是同时听和说,支持自然打断(interrupt)、重叠说话和即时反馈(如“嗯”“对”),对话流畅度大幅提升,几乎零延迟。
核心亮点
✅ 全双工交互:双流设计,一边持续接收用户语音,一边生成回应,能实时调整,像和真人聊天。
✅ Persona 控制:通过文本角色提示(例如“你是一个幽默的老师”)+ 音频语音样本,自定义性格和声音。
✅ 架构:基于 Kyutai 的 Moshi 架构,使用 Mimi 语音编解码器(24kHz),端到端直接处理音频,省去传统 ASR → LLM → TTS 管道。
✅ 开源友好:100% 开源,Hugging Face 下载 nvidia/personaplex-7b-v1,GitHub 仓库提供代码,本地运行无 API 费用,隐私更好。
上手建议
1. 在 Hugging Face 接受模型许可
2. Clone GitHub 仓库:github.com/NVIDIA/personaplex
3. 推荐硬件:≥24GB VRAM GPU(如 RTX 3090/4090),Linux + CUDA 环境
一句话总结:
PersonaPlex 7B 用开源方式解决了语音 AI“说话不自然”的痛点,让人机对话真正接近真人实时交流,适合语音助手、客服、教育等场景。
#How I AI#
发布于 新加坡
