谷歌发布Gemma4模型

谷歌这次，把家底都掏了。#How I AI#

凌晨，#谷歌DeepMind正式发布Gemma4#，一口气放出四款开源模型。

从能塞进手机的2B，到可以单卡跑满的31B，四个尺寸全覆盖，全部基于Gemini 3同源打造。

时隔一年，Gemma 4终于来了，实力迎来史诗级跃迁。

最炸的一个数字，31B Dense在Arena AI文本榜单上拿下开源第三，Elo评分1452。

排在它前面的，一个600多亿参数，一个超过1000亿。Gemma 4用31B的体量，硬生生挤进了这个量级的牌桌。

26B MoE更离谱：260亿参数，推理时只激活38亿，Elo打到1441，排开源第六。

看一眼成绩单，Gemma 4几乎没有弱点，简直就是对上一代的「血脉压制」——

数学（AIME 2026）：89.2% vs 21.2%，暴力拉升68个百分点；
编程（LiveCodeBench）：80% vs 29.1%，实力堪称代际断层；
智能体（t2-bench）：Gemma 4狂揽86.4%，Gemma 3仅有6.6%，差距大到「没眼看」。

另外，在多语言推理、知识问答的基准测试中，Gemma 4均实现了40%性能飙升。

令全网背脊发凉的是，一个31B Gemma 4，越级斩杀体量是其20倍的模型。

一台Mac mimi即可跑Gemma 4，还有人手机已经用上了。

Hugging Face CEO Clément Delangue的评价只有一句话，「这是一个巨大的里程碑。」

四款模型，从口袋到工作站全覆盖

先看Gemma 4「全家桶」具体成员——

每个尺寸都提供base和instruction-tuned两个版本。

E2B和E4B负责端侧，跟谷歌Pixel团队、高通、联发科联合优化，能在手机、树莓派、Jetson Orin Nano上离线运行，延迟接近零。

31B和26B面向开发者工作站和服务器，31B追求极致质量，26B靠MoE架构换取极致速度。

对开发者来说，31B的bfloat16权重可以塞进一张80GB的H100；量化版本在消费级显卡上就能跑。

26B MoE因为只激活3.8B参数，出token速度极快，适合需要低延迟的Agent场景。

值得一提的是，Gemma 4还支持「被曝抄袭」的TurboQuant压缩算法。

看完定位看跑分。

31B在数学推理上的表现尤其惊人。AIME 2026拿到89.2%，对比Gemma 3 27B的20.8%，提升超过四倍。

GPQA Diamond（科学知识）84.3%，同样把前代远远甩开。

编程能力同样炸裂。LiveCodeBench v6上31B拿到80%，Codeforces Elo达到2150，相当于一个紫名选手的水平。26B MoE也不弱，LiveCodeBench 77.1%，Codeforces 1718。

多模态方面，MMMU Pro（多模态推理）31B拿到76.9%，26B拿到73.8%，都大幅领先前代的49.7%。

长上下文能力同样有质的飞跃。MRCR v2 8-needle 128K测试中，31B拿到66.4%，26B拿到44.1%，Gemma 3 27B只有13.5%。

小尺寸也没拉胯，E4B在AIME上42.5%，LiveCodeBench 52%，对一个只有45亿有效参数的选手来说，这个成绩放在一年前是旗舰级的。