谷歌这次,把家底都掏了。#How I AI#
凌晨,#谷歌DeepMind正式发布Gemma4#,一口气放出四款开源模型。
从能塞进手机的2B,到可以单卡跑满的31B,四个尺寸全覆盖,全部基于Gemini 3同源打造。
时隔一年,Gemma 4终于来了,实力迎来史诗级跃迁。
最炸的一个数字,31B Dense在Arena AI文本榜单上拿下开源第三,Elo评分1452。
排在它前面的,一个600多亿参数,一个超过1000亿。Gemma 4用31B的体量,硬生生挤进了这个量级的牌桌。
26B MoE更离谱:260亿参数,推理时只激活38亿,Elo打到1441,排开源第六。
看一眼成绩单,Gemma 4几乎没有弱点,简直就是对上一代的「血脉压制」——
数学(AIME 2026):89.2% vs 21.2%,暴力拉升68个百分点;
编程(LiveCodeBench):80% vs 29.1%,实力堪称代际断层;
智能体(t2-bench):Gemma 4狂揽86.4%,Gemma 3仅有6.6%,差距大到「没眼看」。
另外,在多语言推理、知识问答的基准测试中,Gemma 4均实现了40%性能飙升。
令全网背脊发凉的是,一个31B Gemma 4,越级斩杀体量是其20倍的模型。
一台Mac mimi即可跑Gemma 4,还有人手机已经用上了。
Hugging Face CEO Clément Delangue的评价只有一句话,「这是一个巨大的里程碑。」
四款模型,从口袋到工作站全覆盖
先看Gemma 4「全家桶」具体成员——
每个尺寸都提供base和instruction-tuned两个版本。
E2B和E4B负责端侧,跟谷歌Pixel团队、高通、联发科联合优化,能在手机、树莓派、Jetson Orin Nano上离线运行,延迟接近零。
31B和26B面向开发者工作站和服务器,31B追求极致质量,26B靠MoE架构换取极致速度。
对开发者来说,31B的bfloat16权重可以塞进一张80GB的H100;量化版本在消费级显卡上就能跑。
26B MoE因为只激活3.8B参数,出token速度极快,适合需要低延迟的Agent场景。
值得一提的是,Gemma 4还支持「被曝抄袭」的TurboQuant压缩算法。
看完定位看跑分。
31B在数学推理上的表现尤其惊人。AIME 2026拿到89.2%,对比Gemma 3 27B的20.8%,提升超过四倍。
GPQA Diamond(科学知识)84.3%,同样把前代远远甩开。
编程能力同样炸裂。LiveCodeBench v6上31B拿到80%,Codeforces Elo达到2150,相当于一个紫名选手的水平。26B MoE也不弱,LiveCodeBench 77.1%,Codeforces 1718。
多模态方面,MMMU Pro(多模态推理)31B拿到76.9%,26B拿到73.8%,都大幅领先前代的49.7%。
长上下文能力同样有质的飞跃。MRCR v2 8-needle 128K测试中,31B拿到66.4%,26B拿到44.1%,Gemma 3 27B只有13.5%。
小尺寸也没拉胯,E4B在AIME上42.5%,LiveCodeBench 52%,对一个只有45亿有效参数的选手来说,这个成绩放在一年前是旗舰级的。
