游戏圈资讯君 25-04-21 16:30
微博认证:游戏博主

#AI模型挑战逆转裁判# 衡量AI推理能力的方法是让它玩【逆转裁判】 [哆啦A梦吃惊]

UCSD研究团队开展了一项别出心裁的AI测试。借助经典游戏《逆转裁判》,对多款顶尖AI模型的推理能力进行试炼。

此次参与挑战的选手包括【o1】、【Gemini 2.5 Pro】、【Claude 3.7 - thinking】以及【Llama - 4 Maverick】等。在游戏的法庭盘问环节,这些模型需凭借长文本推理、视觉理解和策略决策等能力,找出证词破绽、大喊“异议”、揭开真相。

测试结果出炉,【o1】和【Gemini 2.5 Pro】脱颖而出,成功晋级第4关。在复杂案件推理中,【o1】更胜一筹,展现出超强实力。【GPT - 4.1】与【Claude 3.5】表现相近,而【Llama - 4 Maverick】遗憾垫底,得分为零。

发布于 陕西