【单卡 4090 运行 Qwen 27B!投机采样实现推理速度暴涨】
快速阅读:通过使用轻量级模型进行“投机采样”(Speculative Decoding),在不损失精度的前提下,将 Qwen 27B 的推理速度从 26 提升到了 154 tok/s。
单卡 4090 跑 Qwen 27B,速度从 26 飙升到 154 tok/s。这听起来像是在榨干硬件的最后一滴血,但其实只是换了个聪明的玩法。
核心逻辑是“投机采样”。简单来说,就是让一个极小的模型(比如 1.7B)先冲在前面,一口气“猜”出后面 12 个 token。然后让那个笨重但聪明的 27B 模型一次性进行验证。如果小模型猜对了,速度直接起飞;如果猜错了,大模型再纠正过来。
这就像是一个实习生先写草稿,主管只负责审阅。如果实习生水平在线,主管的工作量会大幅下降。
有网友提到,这次性能飞跃的关键不在于工具,而在于 85% 的接受率。很多方案的接受率只有 50% 到 60%,带来的额外开销甚至会抵消掉加速效果。之所以这次能跑这么快,是因为用了同系列的轻量模型,它们的“思维分布”高度一致,猜中的概率自然高。
不过,这也不是完美的。有观点认为,这种做法在长文本场景下会面临挑战。如果为了追求速度而牺牲了上下文长度,那对于需要处理复杂长文档的任务来说,可能得不偿失。
目前 Ollama 等主流工具还没开放这个功能,所以大多数人还在用原始的速度硬扛。
x.com/outsource_/status/2047558951303028855
发布于 北京
