青稞AI
26-06-20 11:56 微博认证:AI博主

🔥把投机采样讲透:以 SGLang 中的 EAGLE-2 为例

投机采样(Speculative Decoding)这两年几乎成了 LLM 推理加速的标配,但真正理解它的人不多。很多人停留在”小模型猜、大模型验”这一句话上,一到细节就懵:主模型 verify 的时候到底在算什么?为什么一次前向能验好几个 token?长上下文到底是帮忙还是帮倒忙?
这篇文章以 SGLang 里的 EAGLE-2 实现为例,把这些问题一个个拆开。读完你应该能回答:投机采样什么时候划算、draft 树是怎么长出来的、verify 那次前向的 query/KV/mask 分别是什么、为什么会”错位一位”、以及树形相对线性到底强在哪。

阅读全文:http://t.cn/AXaFl6wI

#青稞社区##人工智能[超话]##大模型#

发布于 河北