EAGLE-2讲透投机采样

🔥把投机采样讲透：以 SGLang 中的 EAGLE-2 为例

投机采样（Speculative Decoding）这两年几乎成了 LLM 推理加速的标配，但真正理解它的人不多。很多人停留在”小模型猜、大模型验”这一句话上，一到细节就懵：主模型 verify 的时候到底在算什么？为什么一次前向能验好几个 token？长上下文到底是帮忙还是帮倒忙？
这篇文章以 SGLang 里的 EAGLE-2 实现为例，把这些问题一个个拆开。读完你应该能回答：投机采样什么时候划算、draft 树是怎么长出来的、verify 那次前向的 query/KV/mask 分别是什么、为什么会”错位一位”、以及树形相对线性到底强在哪。

阅读全文：http://t.cn/AXaFl6wI

#青稞社区##人工智能[超话]##大模型#