投机采样加速Qwen 27B推理

【单卡 4090 运行 Qwen 27B！投机采样实现推理速度暴涨】

快速阅读：通过使用轻量级模型进行“投机采样”（Speculative Decoding），在不损失精度的前提下，将 Qwen 27B 的推理速度从 26 提升到了 154 tok/s。

单卡 4090 跑 Qwen 27B，速度从 26 飙升到 154 tok/s。这听起来像是在榨干硬件的最后一滴血，但其实只是换了个聪明的玩法。

核心逻辑是“投机采样”。简单来说，就是让一个极小的模型（比如 1.7B）先冲在前面，一口气“猜”出后面 12 个 token。然后让那个笨重但聪明的 27B 模型一次性进行验证。如果小模型猜对了，速度直接起飞；如果猜错了，大模型再纠正过来。

这就像是一个实习生先写草稿，主管只负责审阅。如果实习生水平在线，主管的工作量会大幅下降。

有网友提到，这次性能飞跃的关键不在于工具，而在于 85% 的接受率。很多方案的接受率只有 50% 到 60%，带来的额外开销甚至会抵消掉加速效果。之所以这次能跑这么快，是因为用了同系列的轻量模型，它们的“思维分布”高度一致，猜中的概率自然高。

不过，这也不是完美的。有观点认为，这种做法在长文本场景下会面临挑战。如果为了追求速度而牺牲了上下文长度，那对于需要处理复杂长文档的任务来说，可能得不偿失。

目前 Ollama 等主流工具还没开放这个功能，所以大多数人还在用原始的速度硬扛。

x.com/outsource_/status/2047558951303028855

发布于北京