【想用GPT充当参与者?PNAS刊文警告:用AI模拟人类行为开展研究,可能存在危险![并不简单]】
出于多种原因,心理学、行为经济学、市场营销等领域的部分研究者,正在热情高涨地尝试用大语言模型充当人类参与者的替代品,他们假定这些模型可以表现出与人类类似的认知能力和行为反应。这种研究方法是否存在一些风险?
《美国国家科学院院报(PNAS)》刊登了波士顿大学等机构研究者的一项研究,他们根据“11~20金钱要求游戏”的实证证据,对这种研究方法发出了警示。
这其实是一个非常简单的游戏:
你和另外一位玩家,各自要求一定数量的钱,金额在11~20元之间(整数)。两位玩家都可以拿到他们各自要求的钱数。
但是:如果其中一位玩家要求的钱数,恰好比另一位玩家少1块钱,这位玩家就可以拿到额外的20元奖励。
如果只有前一条设定,对你而言最佳的方案肯定是「要求20元」,这样你可以直接拿走最大金额。
然而,由于后一条设定的存在,你需要猜测对手的心思:如果对手“天真”地要求20元,那么你要求19元是最有利的。不过,对手恐怕也不会那么天真,他可能也会要求19元,那么你要求18元是最有利的。以此类推。
如果是你,你会要求多少钱?
以往以人类为参与者的研究,结果如图1的最上面一条所示。可以看到,很少有人“天真”地要求20元,相对而言比较多的人类参与者选择了17元或18元。
研究者把相同的任务抛给AI,他们测试了8个大语言模型:GPT-4、GPT-3.5、Claude3-Opus、Claude3-Sonnet、Llama3-70b、Llama3-8b、Llama2-13b、Llama2-7b。每个模型测试了1000次。
结果发现,AI的结果与人类结果大相径庭。如图1所示,首先,AI没有人类思考得那么“深”。其中,Claude3-Sonnet是最“天真”的,几乎只要求20元。其它大模型也以19元居多。
其次,可以明显看到,人类参与者的结果存在着明显的个体差异,每个选项都会有一些人选择。而AI结果几乎都比较集中,无法反映出人类反应的分布。
在这一主要测试的基础上,研究者还更改测试条件,做了更深入的评估:
①改变游戏任务。例如,允许循环,如果A玩家要求20元,B玩家要求11元,在主要测试中,A玩家无法得到奖励,但在改变后的版本中,A玩家在这种情况下可以得到额外的20元奖励。
从理性角度来看,这种版本下,20元成为更有吸引力的选项。以往以人类为参与者的研究,结果也显示,人类在这种版本下更倾向于选择19。
然而,AI测试的结果,有的模型向着与人类不同的方向变化,有的模型则干脆没有变化(对游戏任务细节的改变不敏感)。
②利用思维链技术,指导大语言模型将任务分解成更小的步骤,依次思考以得出最终答案。同样,有的模型向着与人类不同的方向变化,有的模型则干脆没有变化。
③尝试分别用英文、中文、西班牙文、德文输入指令。按理说,语言的选择不应当实质性地改变模型结果。然而,语言的显著影响还是发生了。
例如,GPT-3.5在用中文输入指令时,比用英文表现出更深入的推理;相反,GPT-4在用中文输入指令时,比用英文表现出更浅表的推理。
作者评论称,这令人担忧,大语言模型的输出实际上可能非常易碎(brittleness)、不稳定,看似没有影响的选择实际上可能产生影响。
④尝试将人口统计学信息透露给大语言模型。结果同样没能使AI结果更接近人类。
⑤收集整理了“11~20金钱要求游戏”的原始手稿,令AI可以访问和运用这些外部知识资源。结果显示,大语言模型的输出确实变得和人类行为更一致,但结果分布仍与人类结果分布存在显著差异。
⑥直接上手调模型,把相关手稿作为示例集用于模型训练,为此,研究者发布了一个新的模型Centaur。然而,尽管经过了大量人类行为数据的训练,新模型仍然无法捕捉到人类认知的复杂性。
研究者指出,大语言模型的能力存在矛盾性,在语言理解、编码等技能任务中确实表现出色,但在对人类而言非常简单的一些任务中却有可能失败。这可能是因为,大语言模型拥有与人类并不相同的智力形式,人类尚未很好地理解AI到底是如何工作和推理的。
作者总结了大语言模型的一些思维局限:
——在逻辑推理方面一直存在缺陷,例如无法识别准确的因果关系。
——当需要处理的任务与模型训练期间“见过”的数据存在很大差异时(被称为out-of-distribution data),表现不佳。一个经典案例是,按照“A是B”来训练的大语言模型,往往无法理解“B是A”。
——易碎性问题(brittleness),大语言模型的结果可能因指令格式和方式而异,例如空格、选项顺序等,从而使可靠性受到质疑。
——AI结果到底是记忆再现、还是真正的推理结果?实际上,大语言模型输出的很多结果可能只是“随机鹦鹉学舌”,在没有真正理解的情况下,把之前“见过”的数据组合起来生成文本。
来源:Gao, Y., Lee, D., Burtch, G., & Fazelpour, S. (2025). Take caution in using LLMs as human surrogates. Proceedings of the National Academy of Sciences of the United States of America, 122(24), e2501660122. doi: 10.1073/pnas.2501660122
