DeepSeek-V4-Pro准确率43%

关注一个重点指标

deepseekv4pro的全知准确率达到了43%，国产最高、开源最高
但是全知幻觉率又极高，达到了96%

也就是说，你不会的问他，他给你回答的准确率还是很高的

但是如果你恰好问到了他也不会的，那他就开始胡编了。

前者应该来自于1.6t的国产最高参数量
后者可能来自于后训练的取向不同

全知幻觉率这块做得最好的是grok4.2，国产最强的是mimo

可能是用作agent更需要模型“承认自己不知道”吧

（排名来源于artificialanalysis）

发布于内蒙古