[CL] EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees
http://t.cn/A6QX7OxK
提出EAGLE-2,利用草案模型的置信度实现依赖上下文的动态草案树,无需额外训练就可以显著提高草案验收率,使大模型推理加速2.5-5倍。
发布于 北京
