刘聪NLP
26-05-06 15:51 微博认证:AI博主

Google开源了Gemma4的系列草稿模型,借助这些草稿模型,可以将推理速度提升3倍。

核心是利用推测解码(Speculative Decoding)的思路,

让草稿模型(轻量)一次性预测出多个Token(MTP,Multi-Token Prediction),作为草稿,再利用主模型进行验证,

若主模型完全认可草稿:所有草稿 token 一次性接受,外加主模型自己再多生成 1 个 token(因为它这次前向传播本身也完成了一次 NTP)。

若主模型部分认可:从前往后接受到第一个不一致的 token 为止,被拒绝的 token 由目标模型用自己的预测就地替换,其后的草稿 token 全部丢弃。

因为输出仍由主模型把关验证,质量与原版 Gemma 4 完全一致,没有任何精度或推理能力的牺牲。

这里有一点值得注意,

一开始我以为这里的MTP用的是DeepSeek的MTP技术,
图3
但不是,是他这里还是单次循环生成,但由于草稿模型较小,整体时间花费也较小。

但用DeepSeek的MTP不应该更节省时间吗?可能效果不好?不知道。。。

不过这里草稿模型,做了多个技术改进,进一步加快推理速度,如下:

Target Activations
核心是借助主模型输出让草稿猜得更准。草稿模型在预测时,将主模型最后一层的输出embedding 与 草稿模型的token embedding进行拼接,再将拼接结果向下映射到草稿模型的隐藏层维度。
图4

但MTP时,第二轮,则拼接的是自身上一轮的embedding向量。
图5

KV Cache Sharing
核心是跳过重复计算,草稿模型利用主模型的KV Cache内容,不重复进行计算。

其中,局部注意力层,直接复用目标模型最近一次的局部 KV 缓存;全局注意力层,直接接到 Gemma 4 最后一层的全局 KV 缓存
图6

Efficient Embedder
核心是解决端侧模型的 LM Head 计算瓶颈问题,利用聚类来解决全词表权重矩阵相乘的问题。

就是,将所有token embedding进行聚类,把相似含义的token,组成一个簇,然后每个簇找到一个embedding。
图7

但只针对Gemma 4 E2B/E4B 模型,因为对于Gemma 4 26B/31B 来说,Decoder参数远大于LM Head参数,还好。

详细官方blog可见:

http://t.cn/AXJjnVln

虽然这个推测解码提速很不错,

Google也是为了提高草稿模型的速度和效果做了一些设计,

但是我还是觉得DeepSeek的MTP更优雅,

毕竟融合到原始模型中的。。。

不过,这波改进,有没有找回BERT时代,魔改的感觉。。。
#How I AI##gemma4##谷歌发布gemma4开源大模型#

发布于 江苏