微软发布VibeVoice-ASR语音模型

一口气听完1小时会议, 还能分清谁在说话!

微软刚刚发布了了 VibeVoice-ASR, 一个 9B 参数的统一语音识别模型, 最猛的是能单次处理长达 60 分钟的音频!

传统 ASR 模型都是把音频切成小片段分开处理, 这样做虽然简单但会丢失全局上下文, 说话人追踪也容易乱. VibeVoice 直接在 64K token 长度内一把梭, 60 分钟音频一次性吃下去.

而且它不只是转文字, 还能同时输出: Who（谁在说）+ When（什么时候说的）+ What（说了啥）. 相当于 ASR + 说话人分离 + 时间戳标注三合一, 直接输出结构化会议纪要.

另一个实用功能是支持自定义热词, 可以提前告诉模型一些专业术语、人名之类的, 识别准确率能大幅提升, 对医疗、法律、技术会议这种专业场景很友好.

架构上基于 Qwen2 Decoder, 28 层 3584 隐藏维度, 配合声学和语义双编码器 + 扩散头的设计. 支持中英双语, MIT 开源协议.

适用场景: 长会议转录、播客访谈处理、客服质检、在线课程字幕等等, 凡是需要分清"谁说了什么"的场景都能用上.

模型地址: huggingface.co/microsoft/VibeVoice-ASR
代码仓库: github.com/microsoft/VibeVoice

#HOW I AI#

发布于日本