ChatGPT出错率高答案不一致

新研究曝光：ChatGPT出错率高，同一问题答案不同！

一项最新研究揭示，风靡全球的人工智能工具ChatGPT在判断科学假设真伪时，其表现远非人们想象的那样可靠。更令人震惊的是，当被反复询问同一个问题时，它经常自相矛盾，有时甚至像抛硬币一样随机切换答案。

这项由华盛顿州立大学主导的研究对ChatGPT进行了严格测试。研究团队从科学论文中提取了700多个假设，让AI判断每个说法是否得到研究支持。为了衡量一致性，他们对每个问题都重复询问了10次。
表面数据看似乐观——在2024年的首次测试中，ChatGPT的正确率为76.5%；2025年对升级版本的测试中，准确率小幅上升至80%。然而，当研究人员剔除随机猜测因素后，情况急转直下——AI的表现仅比随机猜测高出约60%，这一水平在学术评分中仅相当于“低D”，远未达到可靠标准。

更令人担忧的是系统暴露出的严重不一致性。即使面对完全相同的问题，ChatGPT在10次回答中仅有73%的时候能给出相同答案。研究主要作者、华盛顿州立大学副教授Mesut Cicek描述道：“我们用了10次提示问同一个问题，一切条件完全相同。第一次答案是对的，第二次却说是假的，随后又在真伪之间反复切换，有几次甚至出现5次对5次错的平分局面。”

研究还发现，ChatGPT在识别虚假陈述时表现最差，正确率仅有16.4%。这意味着系统更倾向于将错误信息判定为正确，而非相反。
发表在《罗格斯商业评论》（Rutgers Business Review）上的这项研究，对依赖AI做出重要决策的做法敲响了警钟。Cicek指出，尽管生成式AI能产生流畅、令人信服的语言，但它尚未展示出真正的概念理解能力。“目前的AI工具不像我们这样理解世界——它们没有‘大脑’，”他强调，“它们只是在记忆，可以给出一些见解，但根本不明白自己在说什么。”

基于这些发现，研究人员建议商业领袖对AI生成的信息保持审慎核实的态度，并加强培训以更好理解AI系统的能力边界。Cicek总结道：“我并不反对AI，我自己也在使用它。但你必须非常小心，永远保持怀疑。”
#热门微博# #科技快讯# #chatgpt# #哈勃观察员[超话]#

发布于广东