Gemini 3 Pro内部测试曝光

【Gemini 3 Pro正式版来了？内部测试显示“可以叫3.5”】

谷歌又在AI Studio里悄悄搞A/B测试了。

有用户发现正在测试的新checkpoint表现出色，用他们的话说：“好到可以直接叫3.5，没人会有意见。”这可能就是传说中的3 Pro正式版。

社区里不少人确认确实碰到了A/B测试。有人说在处理复杂的n8n工作流时，两个版本差距明显，一个在问题拆解和逻辑步骤上好太多了。

关于这次升级为什么值得期待，要从Flash 3说起。谷歌在Flash 3上用了一套新的后训练方法，效果惊人。当时Pro 3还在训练，来不及用上这套技术。工程师们当时就很兴奋，觉得把这套方法用到Pro上会是个巨大的飞跃。现在看来，这次测试的版本可能就是补上了这一课。

不过社区对3 Pro的评价两极分化严重。

一派认为它底子极好。有人说做科学计算从没失败过，代码一次就跑通。在知识覆盖面和推理天花板上，3 Pro确实比2.5强。做难题的时候，有时候Opus连续三四次都搞不定的东西，Gemini一次就出来了。

另一派的吐槽也很真实。有人说它写代码时会像人一样打错字，这到底是怎么发生的？还有人觉得它在混乱的真实项目里表现不稳定，比如虚幻引擎的蓝图，一碰就出问题。幻觉问题也被频繁提及。

有意思的是，使用体验跟你怎么用它关系很大。直接在AI Studio里写详细指令要代码，效果往往不错。但套进VS Code或其他开发工具，有人说简直没法用。

关于幻觉率，数据其实挺反直觉。根据Artificial Analysis的测评，3 Pro在“不知道的事情”上确实更容易瞎编，但它知道的东西比别的模型多太多。所以算总账，它给出错误答案的绝对次数未必更高。另外Gemini会主动调用搜索来核实信息，这在实际使用中能降低不少幻觉。

说到底，这些模型都还在进化。每次觉得下一个版本会是革命性突破，结果往往达不到预期。保持期待，降低预期，可能才是追AI进展的正确姿势。

x.com/chetaslua/status/1946065108022960612

发布于北京