槐角不甘心 26-04-26 09:06
微博认证:汽车博主

关注一个重点指标

deepseekv4pro的全知准确率达到了43%,国产最高、开源最高
但是全知幻觉率又极高,达到了96%

也就是说,你不会的问他,他给你回答的准确率还是很高的

但是如果你恰好问到了他也不会的,那他就开始胡编了。

前者应该来自于1.6t的国产最高参数量
后者可能来自于后训练的取向不同

全知幻觉率这块做得最好的是grok4.2,国产最强的是mimo

可能是用作agent更需要模型“承认自己不知道”吧

(排名来源于artificialanalysis)

发布于 内蒙古