DSpark加速推测解码

[LG]《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》X Cheng, X Yu, C Shao… [DeepSeek-AI & Peking University](2026)

在推测解码领域，如何平衡草案生成速度与接受率是一个悬而未决的难题。过去的方法受困于“并行生成虽然快但缺乏词间依赖导致接受率骤降”与“盲目验证长序列浪费高并发系统吞吐量”的矛盾，本质原因是并行架构忽略了局部序列的相干性，且验证机制缺乏对系统负载的感知。

本文的核心洞见是：把草案生成看作“重并行骨干与轻串行修正”的组合，并引入硬件感知的动态动态调度。由此，通过在并行层后添加极轻量的马尔可夫或RNN头来注入词间依赖，并耦合一个经校准的置信度头，根据实时系统负载和生存概率动态截断验证长度，使问题得以解开。

这项工作真正留下的遗产是成功将推测解码从单纯的算法优化推向了系统级的帕累托前沿优化。它为后来者打开的新门是在高并发生产环境下通过负载自适应调度实现 60%-85% 的加速，但尚未跨过的门槛是草案模型在面对极低接受率请求时仍需支付不可回收的初始计算成本。

github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf #人工智能##机器学习##论文#

发布于北京