HuggingFace 官方博客上的一篇文章:《Speculative Decoding for 2x Faster Whisper Inference | 推测性解码:实现 Whisper 推理速度提升两倍 [译]》
在这篇文章中,展示了如何应用“猜测式解码”(Speculative Decoding) 技术来减少 Whisper 语音识别模型的处理时间,实现了处理速度的 两倍提升,同时数学上保证了模型输出的 完全一致性。因此,这一方法可以无缝替代现有的 Whisper 处理流程,不仅保持了原有的准确性,还能实现处理速度的双倍快速提升。
简单来说,Speculative Decoding就是先利用一个快速的 Assistant 模型生成候选tokens,再用 Main 模型验证。
Assistant 的速度是 Main 模型的 3 倍,但准确率只有 70% - 80%。
使用这种方法可以让整体速度提升 2 倍,并且保证输出完全一致。
文章还提供了Google Colab的测试连接:http://t.cn/A6lSNz13
原文:http://t.cn/A6lSNz11
译文:http://t.cn/A6lSCZQg
发布于 美国
