给大家带来微软刚刚发布的大模型 Vibe Voice ASR 的实测.
这是一个9B大小的音频转文本大模型, 可以转录语音或者音乐, 单次最大可以处理1小时的音频, 这个模型的创新点是传统 ASR 模型会把音频切成小片段分开处理, 这样做虽然简单但会丢失全局上下文, 说话人追踪也容易乱. VibeVoice 直接在 64K token 长度内一把梭, 60 分钟音频一次性吃下去.
直接上难度, 我第一个测试时万能青年旅店的音乐大石碎胸口, 来看测试结果, 它会有识别错误的情况, 但整体段落和音乐识别都是没问题的.
我们尝试加一些热词, 这也是这个模型的特性, 加一些专用词可以直接提高准确率.
可以看到纠正成功了! 的确好用, 不过新的识别问题又出现了.
那么准确率到底怎么样? 于是我醉了个极限测试, 把 3000 秒的哈利波特小说朗读扔了进去, 来看测试结果.
3000秒的音频处理花费了2分钟, 约合每秒钟处理89个token, 平均准确率在 91.9% 左右, 这个结果相当可用了.
具体错误类型更多集中在专有名词的同音字上, 比如哈利的表哥叫"达力"而不是"达利" (嘛这个也没办法). 如果增加一些热词配置准确率会更高.
#HOW I AI# http://t.cn/AXGdnXg5
发布于 北京
