现在 Gemini-3.1-Pro 测试结论两极分化非常严重, 有的朋友一测就SOTA, 有的测完了感觉拉了甚至不如3.0-Pro (比如我).
给大家来一波深度分析:
首先, 测完不如 3.0-Pro 不是我的个例, VendingBench2 (让大模型管理自动贩卖机赚钱的测试) 测试结论跟我的一致, 都是 3.0-Pro 要比 3.1-Pro 好.
注意得分折线图中有一个有意思的细节(跟我的测试一致), 就是分数到达某一轮后突然就跌了, 给人的感觉就是超过某个 context length 后性能暴跌. 跟我的测试表现一样.
所以我的大胆猜测是, 3.1-pro 很可能跟风上了很极端的线性注意力机制, 然后这玩意不稳定... 小型任务的确表现爆表 (模型性能的确有提升), 但是大型任务超过了某个 context length 直接就炸了.
表现是 tool call 不合理 (我的后端能力测试 vector db bench 中有一轮测试, 刚进行了40/50步, 它就半场开香槟直接选择优化完毕结束任务), 以及涉及到变量作用域这种贯穿整个上下文的内容会有幻觉. (前端代码生成中错误率极高, 且都是未定义函数调用或变量作作用域问题, 按说这对2025上半年的模型来说就已经是小儿科问题了, llama3时代的bug).
所以目前来讲, 部分博主测得结果Gemini-3.1-pro 效果很好是对的, 因为他们得任务规模输出token可能不到500行代码. 有的博主测试效果很拉也是对的, 因为多半是跟我一样的大型任务或者多轮次的Agent任务(比如下文的VendingBench2). 超过了某个上下文阈值, 就炸了.
所以小型任务或者不严肃的任务用用我觉得没问题, 编程任务或者大型任务还是要谨慎. 等一波正式版吧, 毕竟现在是 preview (但 Google 有个坏习惯, 一 preview就view 3个月....)
#HOW I AI#
