前面讲了Qwen3 TTS,有人说就缺一个ASR了。
这不就来了么?
微软出品的VibeVoice-ASR,一次可以处理60 分钟长音频呢。
🕒 60分钟单次处理: 与将音频切片成短片段(常常失去全局上下文)的传统ASR模型不同,VibeVoice ASR可接受64K令牌长度内最多60分钟的连续音频输入。这确保了整个小时内说话者的跟踪和语义一致性。
👤 定制热词: 用户可以提供定制的热词(例如特定姓名、专业术语或背景信息)来指导识别流程,显著提高领域特定内容的准确性。
📝 Rich 转录(谁、何时、什么): 该模型共同执行ASR、日记化和时间戳,生成结构化输出,显示谁说了什么以及何时说了什么。
模型:huggingface.co/microsoft/VibeVoice-ASR
发布于 江苏
