Google开源Gemma4草稿模型

Google开源了Gemma4的系列草稿模型，借助这些草稿模型，可以将推理速度提升3倍。

核心是利用推测解码（Speculative Decoding）的思路，

让草稿模型（轻量）一次性预测出多个Token（MTP，Multi-Token Prediction），作为草稿，再利用主模型进行验证，

若主模型完全认可草稿：所有草稿 token 一次性接受，外加主模型自己再多生成 1 个 token（因为它这次前向传播本身也完成了一次 NTP）。

若主模型部分认可：从前往后接受到第一个不一致的 token 为止，被拒绝的 token 由目标模型用自己的预测就地替换，其后的草稿 token 全部丢弃。

因为输出仍由主模型把关验证，质量与原版 Gemma 4 完全一致，没有任何精度或推理能力的牺牲。

这里有一点值得注意，

一开始我以为这里的MTP用的是DeepSeek的MTP技术，
图3
但不是，是他这里还是单次循环生成，但由于草稿模型较小，整体时间花费也较小。

但用DeepSeek的MTP不应该更节省时间吗？可能效果不好？不知道。。。

不过这里草稿模型，做了多个技术改进，进一步加快推理速度，如下：

Target Activations
核心是借助主模型输出让草稿猜得更准。草稿模型在预测时，将主模型最后一层的输出embedding 与草稿模型的token embedding进行拼接，再将拼接结果向下映射到草稿模型的隐藏层维度。
图4

但MTP时，第二轮，则拼接的是自身上一轮的embedding向量。
图5

KV Cache Sharing
核心是跳过重复计算，草稿模型利用主模型的KV Cache内容，不重复进行计算。

其中，局部注意力层，直接复用目标模型最近一次的局部 KV 缓存；全局注意力层，直接接到 Gemma 4 最后一层的全局 KV 缓存
图6

Efficient Embedder
核心是解决端侧模型的 LM Head 计算瓶颈问题，利用聚类来解决全词表权重矩阵相乘的问题。

就是，将所有token embedding进行聚类，把相似含义的token，组成一个簇，然后每个簇找到一个embedding。
图7

但只针对Gemma 4 E2B/E4B 模型，因为对于Gemma 4 26B/31B 来说，Decoder参数远大于LM Head参数，还好。

详细官方blog可见：

http://t.cn/AXJjnVln

虽然这个推测解码提速很不错，

Google也是为了提高草稿模型的速度和效果做了一些设计，

但是我还是觉得DeepSeek的MTP更优雅，

毕竟融合到原始模型中的。。。

不过，这波改进，有没有找回BERT时代，魔改的感觉。。。
#How I AI##gemma4##谷歌发布gemma4开源大模型#

发布于江苏