语音对话不再依赖文字转写!
MOSS-Speech 是一款真正的端到端语音对语音大模型,跳过文字中间环节,直接生成自然流畅的语音回复。它基于预训练文本大模型,创新性地加入语音模态层,保持强大语言理解能力的同时,实现纯语音交互。
- 无需文字指导,真正的语音对话体验
- 模态分层架构,结合文本大模型与语音特性
- 冻结预训练策略,保留模型强大能力
- 领先的语音问答和语音对话性能
支持快速部署,提供了实用的Web演示,适合语音交互、智能助理等场景。
开源地址👉 github.com/OpenMOSS/MOSS-Speech
更多体验,访问演示站点:moss-speech.open-moss.com
发布于 北京
