英伟达最新开源的一款ASR:Nemotron Speech ASR,专攻低延迟实时语音智能体场景,多人同时对话不爆延迟
单句最终转录锁定只需24ms,端到端全程<500ms,长语音不会累加等待时间
核心是其在FastConformer架构里加了一套缓存感知机制,已经算过的语音特征全部缓存在显存,不再二次编码
新音频只算增量,帧级复用。好比说,以前每翻一页书都要把前面几页重读一遍,现在直接夹书签只读新段落
延迟模式可动态配置,80、160、560毫秒、1.12 秒等,无需重新训练,可根据应用需求灵活选择来平衡延迟和WER
基于Nemotron Speech ASR还给了一个AI语音助手构建示例,LLM用的Nemotron 3 Nano 30B,TTS是Magpie
在此配置下,Nemotron Speech ASR实现了最终转录的中位时间为24毫秒,且不受话语长度影响,长音频片段与短音频片段一样可以快速完成转录
语音助手代码:http://t.cn/AXboJmmP
Nemotron Speech ASR模型:http://t.cn/AXboJmmv
#ASR##NemotronSpeechASR##AI语音助手# http://t.cn/AXboJdV3
发布于 山西
