Gemini-3.1-pro实测分析

Gemini-3.1-pro 实测! 更新了个寂寞?

光速给大家带来 Gemini-3.1-pro 实测!

指令遵循: 洛希极限测试中部分指令遵循率 93.5% (3.0-pro 为 90.6%), 加权总分从 6.8 提升到 8.6, 数据上确实有进步. 但实测中 6 次测试有 4 次输出的 JS 代码直接报错无法运行, 2/3 的失败率属实离谱.

后端编程: vector DB Bench 向量数据库测试中, 3.1-pro QPS 成绩 658, 而 3.0-pro 刷到了 1970, 是 3.1 的整整 3 倍! 两者都用了 IVF 倒排索引, 但 3.0-pro 聚类参数更优 (K=2048 vs 1000), 并且用最大堆替代 Vec 排序, 内存开销仅为后者的 0.7%, 新版反而被老版碾压.

前端编程: 表现极不稳定. 大象牙膏喷发效果提升但碰撞效果有些诡异, 鞭炮连锁爆炸光影效果消失了, 鞭炮炸鱼缸水面波纹不错但丢掉了粒子和烟雾. 唯一亮眼的是陀飞轮机芯测试, 空间理解明显增强, 这也解释了为什么最近 X 上各种 SVG 测试都是 SOTA.

总结: Gemini-3.1-pro 给我最大的感受就是——不稳定. 前端有进有退, 后端没打过 3.0-pro, 性能优化过程中甚至出现越优化越差的情况. 更像是一个没训练稳定就仓促发布的技术预览版. 如果你用着感觉不对劲, 不妨先换回 3.0-pro. 让我们等一波正式版到时候再给大家测一下看看.

#HOW I AI##Gemini-3.1-Pro#
#Google发布Gemini3.1Pro# http://t.cn/AXtr2bAZ

发布于北京