关注一个重点指标
deepseekv4pro的全知准确率达到了43%,国产最高、开源最高
但是全知幻觉率又极高,达到了96%
也就是说,你不会的问他,他给你回答的准确率还是很高的
但是如果你恰好问到了他也不会的,那他就开始胡编了。
前者应该来自于1.6t的国产最高参数量
后者可能来自于后训练的取向不同
全知幻觉率这块做得最好的是grok4.2,国产最强的是mimo
可能是用作agent更需要模型“承认自己不知道”吧
(排名来源于artificialanalysis)
发布于 内蒙古
