微软推出VibeVoice-ASR

前面讲了Qwen3 TTS，有人说就缺一个ASR了。
这不就来了么?
微软出品的VibeVoice-ASR，一次可以处理60 分钟长音频呢。

🕒 60分钟单次处理：与将音频切片成短片段（常常失去全局上下文）的传统ASR模型不同，VibeVoice ASR可接受64K令牌长度内最多60分钟的连续音频输入。这确保了整个小时内说话者的跟踪和语义一致性。

👤 定制热词：用户可以提供定制的热词（例如特定姓名、专业术语或背景信息）来指导识别流程，显著提高领域特定内容的准确性。

📝 Rich 转录（谁、何时、什么）：该模型共同执行ASR、日记化和时间戳，生成结构化输出，显示谁说了什么以及何时说了什么。

模型：huggingface.co/microsoft/VibeVoice-ASR

发布于江苏