新智元 26-04-03 10:13
微博认证:新智元官方微博

谷歌这次,把家底都掏了。#How I AI#

凌晨,#谷歌DeepMind正式发布Gemma4#,一口气放出四款开源模型。

从能塞进手机的2B,到可以单卡跑满的31B,四个尺寸全覆盖,全部基于Gemini 3同源打造。

时隔一年,Gemma 4终于来了,实力迎来史诗级跃迁。

最炸的一个数字,31B Dense在Arena AI文本榜单上拿下开源第三,Elo评分1452。

排在它前面的,一个600多亿参数,一个超过1000亿。Gemma 4用31B的体量,硬生生挤进了这个量级的牌桌。

26B MoE更离谱:260亿参数,推理时只激活38亿,Elo打到1441,排开源第六。

看一眼成绩单,Gemma 4几乎没有弱点,简直就是对上一代的「血脉压制」——

数学(AIME 2026):89.2% vs 21.2%,暴力拉升68个百分点;
编程(LiveCodeBench):80% vs 29.1%,实力堪称代际断层;
智能体(t2-bench):Gemma 4狂揽86.4%,Gemma 3仅有6.6%,差距大到「没眼看」。

另外,在多语言推理、知识问答的基准测试中,Gemma 4均实现了40%性能飙升。

令全网背脊发凉的是,一个31B Gemma 4,越级斩杀体量是其20倍的模型。

一台Mac mimi即可跑Gemma 4,还有人手机已经用上了。

Hugging Face CEO Clément Delangue的评价只有一句话,「这是一个巨大的里程碑。」

四款模型,从口袋到工作站全覆盖

先看Gemma 4「全家桶」具体成员——

每个尺寸都提供base和instruction-tuned两个版本。

E2B和E4B负责端侧,跟谷歌Pixel团队、高通、联发科联合优化,能在手机、树莓派、Jetson Orin Nano上离线运行,延迟接近零。

31B和26B面向开发者工作站和服务器,31B追求极致质量,26B靠MoE架构换取极致速度。

对开发者来说,31B的bfloat16权重可以塞进一张80GB的H100;量化版本在消费级显卡上就能跑。

26B MoE因为只激活3.8B参数,出token速度极快,适合需要低延迟的Agent场景。

值得一提的是,Gemma 4还支持「被曝抄袭」的TurboQuant压缩算法。

看完定位看跑分。

31B在数学推理上的表现尤其惊人。AIME 2026拿到89.2%,对比Gemma 3 27B的20.8%,提升超过四倍。

GPQA Diamond(科学知识)84.3%,同样把前代远远甩开。

编程能力同样炸裂。LiveCodeBench v6上31B拿到80%,Codeforces Elo达到2150,相当于一个紫名选手的水平。26B MoE也不弱,LiveCodeBench 77.1%,Codeforces 1718。

多模态方面,MMMU Pro(多模态推理)31B拿到76.9%,26B拿到73.8%,都大幅领先前代的49.7%。

长上下文能力同样有质的飞跃。MRCR v2 8-needle 128K测试中,31B拿到66.4%,26B拿到44.1%,Gemma 3 27B只有13.5%。

小尺寸也没拉胯,E4B在AIME上42.5%,LiveCodeBench 52%,对一个只有45亿有效参数的选手来说,这个成绩放在一年前是旗舰级的。