宝玉xp 23-12-21 10:20
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

HuggingFace 官方博客上的一篇文章:《Speculative Decoding for 2x Faster Whisper Inference | 推测性解码:实现 Whisper 推理速度提升两倍 [译]》

在这篇文章中,展示了如何应用“猜测式解码”(Speculative Decoding) 技术来减少 Whisper 语音识别模型的处理时间,实现了处理速度的 两倍提升,同时数学上保证了模型输出的 完全一致性。因此,这一方法可以无缝替代现有的 Whisper 处理流程,不仅保持了原有的准确性,还能实现处理速度的双倍快速提升。

简单来说,Speculative Decoding就是先利用一个快速的 Assistant 模型生成候选tokens,再用 Main 模型验证。

Assistant 的速度是 Main 模型的 3 倍,但准确率只有 70% - 80%。

使用这种方法可以让整体速度提升 2 倍,并且保证输出完全一致。

文章还提供了Google Colab的测试连接:http://t.cn/A6lSNz13

原文:http://t.cn/A6lSNz11
译文:http://t.cn/A6lSCZQg

发布于 美国