爱可可-爱生活 26-04-03 08:02
微博认证:AI博主 2025微博新锐新知博主

【Google开源Gemma 4:能跑在手机上的多模态推理模型】

快速阅读:Google DeepMind发布Gemma 4系列开源模型,采用Apache 2.0许可证,提供E2B、E4B、26B A4B(MoE)和31B四种规格,支持文本、图像、视频和音频的多模态输入,内置推理模式,上下文窗口最大256K。基准测试显示E4B能在多项指标上超越Gemma 3 27B,引发广泛讨论。

---

一个4B激活参数的MoE模型,在多项基准上打败了27B的稠密模型。这不是量化技巧,是架构设计的结果。

Gemma 4这次发布了四个规格:E2B、E4B是小模型,原生支持音频输入;26B A4B是MoE设计,实际激活参数只有4B;31B是全量稠密模型。上下文窗口小模型128K,中等模型256K。混合注意力机制将局部滑动窗口和全局注意力交错排列,最后一层始终是全局注意力——这是在内存占用和长上下文感知之间走的一条平衡路。

许可证从“Google Gemma专属协议”换成了Apache 2.0。这个变化比版本号的升级更值得关注。之前的协议里Google保留了限制使用的权利,现在是真正意义上的随便用。有观点认为这是Google对开源社区的实质性让步,而不只是PR动作。

基准数字放在这里:E4B在GPQA Diamond上拿到58.6%,Gemma 3 27B是42.4%;LiveCodeBench从29.1%跳到52.0%;Codeforces ELO从110飙到940。有网友整理了和Qwen 3.5的横向对比,结论大概是:31B在LMArena ELO上略高,多数推理基准上Qwen 3.5 27B还是稍好,多语言是Gemma的明确优势。

关于ELO的讨论颇为热闹。有观点认为LMArena的人类投票机制更诚实,有观点认为2026年的ELO也已经可以被RLHF训练方向刻意优化,说白了就是让模型的输出格式更讨人类评委喜欢。基准测试本身早就是被博弈的对象,这不是新问题。

实际跑起来的感受分歧明显。有人在双卡(5070ti + 5060ti,共32GB显存)上跑31B,用llama.cpp,初始25 TPS,上下文拉长后降到18 TPS,某个小众代码测试题一次过;有人在8GB显存上跑26B A4B的量化版,速度和质量都能接受。E4B被指出是做语音助手的好选择——原生音频输入加上function calling,可以把Audio→STT→LLM→TTS的四步管道压缩成三步。

社区里不少人在等一个“large”规格的模型。有网友注意到官方文档里只写了“small”和“medium”两个词,没有“large”,这通常意味着还有东西没发完。大概率有一个更大的MoE还在训练里。

模型名字越叠越长的梗每次新模型发布都会出来一次,这次也没例外。

ref: reddit.com/r/LocalLLaMA/comments/1salgre/gemma_4_has_been_released

发布于 北京