#AI模型挑战逆转裁判# 衡量AI推理能力的方法是让它玩【逆转裁判】 [哆啦A梦吃惊]UCSD研究团队开展了一项别出心裁的AI测试。借助经典游戏《逆转裁判》，对多款顶尖AI模型的推理能力进行试炼。此次参与挑战的选手包括【o1】、【Gemini 2.5 Pro】、【Claude 3.7 - thinking】以及【Llama

#AI模型挑战逆转裁判# 衡量AI推理能力的方法是让它玩【逆转裁判】 [哆啦A梦吃惊]

UCSD研究团队开展了一项别出心裁的AI测试。借助经典游戏《逆转裁判》，对多款顶尖AI模型的推理能力进行试炼。

此次参与挑战的选手包括【o1】、【Gemini 2.5 Pro】、【Claude 3.7 - thinking】以及【Llama - 4 Maverick】等。在游戏的法庭盘问环节，这些模型需凭借长文本推理、视觉理解和策略决策等能力，找出证词破绽、大喊“异议”、揭开真相。

测试结果出炉，【o1】和【Gemini 2.5 Pro】脱颖而出，成功晋级第4关。在复杂案件推理中，【o1】更胜一筹，展现出超强实力。【GPT - 4.1】与【Claude 3.5】表现相近，而【Llama - 4 Maverick】遗憾垫底，得分为零。

发布于陕西