英伟达开源Nemotron Speech ASR

英伟达最新开源的一款ASR：Nemotron Speech ASR，专攻低延迟实时语音智能体场景，多人同时对话不爆延迟

单句最终转录锁定只需24ms，端到端全程<500ms，长语音不会累加等待时间

核心是其在FastConformer架构里加了一套缓存感知机制，已经算过的语音特征全部缓存在显存，不再二次编码

新音频只算增量，帧级复用。好比说，以前每翻一页书都要把前面几页重读一遍，现在直接夹书签只读新段落

延迟模式可动态配置，80、160、560毫秒、1.12 秒等，无需重新训练，可根据应用需求灵活选择来平衡延迟和WER

基于Nemotron Speech ASR还给了一个AI语音助手构建示例，LLM用的Nemotron 3 Nano 30B，TTS是Magpie

在此配置下，Nemotron Speech ASR实现了最终转录的中位时间为24毫秒，且不受话语长度影响，长音频片段与短音频片段一样可以快速完成转录

语音助手代码：http://t.cn/AXboJmmP
Nemotron Speech ASR模型：http://t.cn/AXboJmmv

#ASR##NemotronSpeechASR##AI语音助手# http://t.cn/AXboJdV3

发布于山西