【Gemini 3 Pro正式版来了?内部测试显示“可以叫3.5”】
谷歌又在AI Studio里悄悄搞A/B测试了。
有用户发现正在测试的新checkpoint表现出色,用他们的话说:“好到可以直接叫3.5,没人会有意见。”这可能就是传说中的3 Pro正式版。
社区里不少人确认确实碰到了A/B测试。有人说在处理复杂的n8n工作流时,两个版本差距明显,一个在问题拆解和逻辑步骤上好太多了。
关于这次升级为什么值得期待,要从Flash 3说起。谷歌在Flash 3上用了一套新的后训练方法,效果惊人。当时Pro 3还在训练,来不及用上这套技术。工程师们当时就很兴奋,觉得把这套方法用到Pro上会是个巨大的飞跃。现在看来,这次测试的版本可能就是补上了这一课。
不过社区对3 Pro的评价两极分化严重。
一派认为它底子极好。有人说做科学计算从没失败过,代码一次就跑通。在知识覆盖面和推理天花板上,3 Pro确实比2.5强。做难题的时候,有时候Opus连续三四次都搞不定的东西,Gemini一次就出来了。
另一派的吐槽也很真实。有人说它写代码时会像人一样打错字,这到底是怎么发生的?还有人觉得它在混乱的真实项目里表现不稳定,比如虚幻引擎的蓝图,一碰就出问题。幻觉问题也被频繁提及。
有意思的是,使用体验跟你怎么用它关系很大。直接在AI Studio里写详细指令要代码,效果往往不错。但套进VS Code或其他开发工具,有人说简直没法用。
关于幻觉率,数据其实挺反直觉。根据Artificial Analysis的测评,3 Pro在“不知道的事情”上确实更容易瞎编,但它知道的东西比别的模型多太多。所以算总账,它给出错误答案的绝对次数未必更高。另外Gemini会主动调用搜索来核实信息,这在实际使用中能降低不少幻觉。
说到底,这些模型都还在进化。每次觉得下一个版本会是革命性突破,结果往往达不到预期。保持期待,降低预期,可能才是追AI进展的正确姿势。
x.com/chetaslua/status/1946065108022960612
