Google开源Gemma 4模型

【Google开源Gemma 4：能跑在手机上的多模态推理模型】

快速阅读：Google DeepMind发布Gemma 4系列开源模型，采用Apache 2.0许可证，提供E2B、E4B、26B A4B（MoE）和31B四种规格，支持文本、图像、视频和音频的多模态输入，内置推理模式，上下文窗口最大256K。基准测试显示E4B能在多项指标上超越Gemma 3 27B，引发广泛讨论。

---

一个4B激活参数的MoE模型，在多项基准上打败了27B的稠密模型。这不是量化技巧，是架构设计的结果。

Gemma 4这次发布了四个规格：E2B、E4B是小模型，原生支持音频输入；26B A4B是MoE设计，实际激活参数只有4B；31B是全量稠密模型。上下文窗口小模型128K，中等模型256K。混合注意力机制将局部滑动窗口和全局注意力交错排列，最后一层始终是全局注意力——这是在内存占用和长上下文感知之间走的一条平衡路。

许可证从“Google Gemma专属协议”换成了Apache 2.0。这个变化比版本号的升级更值得关注。之前的协议里Google保留了限制使用的权利，现在是真正意义上的随便用。有观点认为这是Google对开源社区的实质性让步，而不只是PR动作。

基准数字放在这里：E4B在GPQA Diamond上拿到58.6%，Gemma 3 27B是42.4%；LiveCodeBench从29.1%跳到52.0%；Codeforces ELO从110飙到940。有网友整理了和Qwen 3.5的横向对比，结论大概是：31B在LMArena ELO上略高，多数推理基准上Qwen 3.5 27B还是稍好，多语言是Gemma的明确优势。

关于ELO的讨论颇为热闹。有观点认为LMArena的人类投票机制更诚实，有观点认为2026年的ELO也已经可以被RLHF训练方向刻意优化，说白了就是让模型的输出格式更讨人类评委喜欢。基准测试本身早就是被博弈的对象，这不是新问题。

实际跑起来的感受分歧明显。有人在双卡（5070ti + 5060ti，共32GB显存）上跑31B，用llama.cpp，初始25 TPS，上下文拉长后降到18 TPS，某个小众代码测试题一次过；有人在8GB显存上跑26B A4B的量化版，速度和质量都能接受。E4B被指出是做语音助手的好选择——原生音频输入加上function calling，可以把Audio→STT→LLM→TTS的四步管道压缩成三步。

社区里不少人在等一个“large”规格的模型。有网友注意到官方文档里只写了“small”和“medium”两个词，没有“large”，这通常意味着还有东西没发完。大概率有一个更大的MoE还在训练里。

模型名字越叠越长的梗每次新模型发布都会出来一次，这次也没例外。

ref: reddit.com/r/LocalLLaMA/comments/1salgre/gemma_4_has_been_released

发布于北京