新研究曝光:ChatGPT出错率高,同一问题答案不同!
一项最新研究揭示,风靡全球的人工智能工具ChatGPT在判断科学假设真伪时,其表现远非人们想象的那样可靠。更令人震惊的是,当被反复询问同一个问题时,它经常自相矛盾,有时甚至像抛硬币一样随机切换答案。
这项由华盛顿州立大学主导的研究对ChatGPT进行了严格测试。研究团队从科学论文中提取了700多个假设,让AI判断每个说法是否得到研究支持。为了衡量一致性,他们对每个问题都重复询问了10次。
表面数据看似乐观——在2024年的首次测试中,ChatGPT的正确率为76.5%;2025年对升级版本的测试中,准确率小幅上升至80%。然而,当研究人员剔除随机猜测因素后,情况急转直下——AI的表现仅比随机猜测高出约60%,这一水平在学术评分中仅相当于“低D”,远未达到可靠标准。
更令人担忧的是系统暴露出的严重不一致性。即使面对完全相同的问题,ChatGPT在10次回答中仅有73%的时候能给出相同答案。研究主要作者、华盛顿州立大学副教授Mesut Cicek描述道:“我们用了10次提示问同一个问题,一切条件完全相同。第一次答案是对的,第二次却说是假的,随后又在真伪之间反复切换,有几次甚至出现5次对5次错的平分局面。”
研究还发现,ChatGPT在识别虚假陈述时表现最差,正确率仅有16.4%。这意味着系统更倾向于将错误信息判定为正确,而非相反。
发表在《罗格斯商业评论》(Rutgers Business Review)上的这项研究,对依赖AI做出重要决策的做法敲响了警钟。Cicek指出,尽管生成式AI能产生流畅、令人信服的语言,但它尚未展示出真正的概念理解能力。“目前的AI工具不像我们这样理解世界——它们没有‘大脑’,”他强调,“它们只是在记忆,可以给出一些见解,但根本不明白自己在说什么。”
基于这些发现,研究人员建议商业领袖对AI生成的信息保持审慎核实的态度,并加强培训以更好理解AI系统的能力边界。Cicek总结道:“我并不反对AI,我自己也在使用它。但你必须非常小心,永远保持怀疑。”
#热门微博# #科技快讯# #chatgpt# #哈勃观察员[超话]#
