Google 为自家开源模型 Gemma 4 发布了 MTP drafter(多 token 预测草稿模型),推理速度最高提升 3 倍,输出质量保持不变。http://t.cn/AXJjn4AU
Gemma 4 是 Google 几周前发布的开源模型系列,从手机端的 E2B、E4B 一直到工作站的 26B MoE 和 31B Dense,官方称上线几周下载量已经突破 6000 万。MTP drafter 用的是 speculative decoding(推测解码):让一个轻量级的小模型先“猜”出接下来好几个 token,再让大模型一次性并行验证,验证通过的部分一口气全部输出。
这套机制对本地跑模型的场景特别有用。LLM 推理之所以慢,瓶颈往往不在算力,而在内存带宽,处理器大部分时间都在把几十亿参数从显存搬到计算单元,只为了挤出下一个 token。推测解码把闲置算力利用起来,让小模型一次预测多个 token,大模型只做验证,等于把流水线拉满。
实际效果上,在 Apple Silicon 跑 26B MoE 模型,批量大小开到 4 到 8 时本地能拿到约 2.2 倍提速。因为最终验证仍由大模型完成,输出和原版逐字一致,没有质量取舍。
drafter 沿用 Gemma 4 的 Apache 2.0 协议,权重已经上传到 Hugging Face 和 Kaggle,transformers、MLX、vLLM、SGLang、Ollama 都已支持。
官方公告:https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
Drafter 详细解释:http://t.cn/AXJjnVln http://t.cn/AXJjnbsa
发布于 美国
