高飞 25-02-22 13:17
微博认证:至顶科技创始人 AI博主

#模型时代# xAI前员工:Grok3的性能和我之前猜的差不多。
xAI有一名前员工Benjamin De Kraker,在X上预测Grok3的编码性能估计排第三。然后拒绝了公司的删帖要求而离职 http://t.cn/A61SxP0B。

现在Grok3发布,他回来又发帖印证了一下自己的说法。

不过,需要注意的,这里边有一个插曲。如果根据xAI自己披露的数据,那么Grok3的各项性能是第一名的。但是后来,OpenAI的Boris Power讲,xAI的评测方式有问题。xAI使用的是64次尝试(cons@64),而OpenAI则选择了单次尝试(cons@1)。

也就是说,Grok3的分数是多次尝试之后的最高分,OpenAI的O系列模型则是一锤定音的方法,看一次尝试的结果。如果按一个准则,Grok3就是第三,和Benjamin预测的一样。

发布于 北京