相信“只要学会使用AI工具就不会被淘汰”,是现阶段个人成长和职业发展的最大陷阱
http://t.cn/A6D8GZRA
陈小平 | 人类智能与人工智能的根本差别与比较优势——兼论双智社会的最大陷阱
图片
图片
作者简介
陈小平,中国科学技术大学计算机学院教授,广东省科学院人工智能首席科学家,中国人工智能学会会士、人工智能伦理与治理工委会主任。
说明:本文根据作者2025年6月26日在广东外语外贸大学著名教授讲坛上的演讲内容整理加工而成,为网络首发。讲坛发言原标题为《跳出人工智能时代个人成长和职业发展的最大陷阱》。
摘要
对最近一次图灵测试的实验结果进行分析和解读,提出图灵测试的分级,并肯定人工智能已经通过了初级图灵测试。结合人工智能各方面的进展,认为人类智能和机器智能双足鼎立的“双智社会”正在到来。通过对大模型科学原理和深度测试的研究,指出人工智能取得了两项原理性突破,同时也是两项原理性局限,即实例性和弱共识性,从而为双智社会的科学依据——机器智能与人类智能的根本区别,提供新证据。对人类智能与机器智能的比较优势做初步分析,提出在双智社会中人类必须弘扬人的独特性,驾驭机器而不是甘当机器的附庸。以程序员职业和文员职业为例,论证“只要会用AI工具就不会被淘汰”是现阶段双智社会的最大职业陷阱。
正文
关于“智能”,普遍流行着“单智假设”,即认为世界上只有一种智能——人类智能,而人工智能本质上是机器载体上的人类智能。但人工智能奠基人图灵却认为,机器智能与人类智能的工作原理可以有所不同,而表现或功能是相同或相似的,这就是图灵的机器智能观。
70多年来,图灵的机器智能观在人工智能研究和应用中获得了越来越多、越来越强的支持证据。近年来,未经专业训练的普通大众可以直接操纵生成式人工智能,而低成本加开源使得大量机构和很多个人可以拥有自己的专有AI系统,从而极大地加快了人工智能“大众化”的步伐。同时,AI系统的性能显著提升,在一些领域和任务中的表现已经超过了人类,甚至获得了2024诺贝尔科学奖。人类智能和机器智能双足鼎立的格局正在快速形成,“双智社会”的晨钟已经敲响,未来之旅充满了良机与陷阱。
一、图灵测试
及其最新实验介绍与解读
人工智能奠基人、创始人艾伦·图灵于1950年提出“模仿游戏” [1],被后人称为图灵测试。其大意是:如果裁判(人)通过问答不能正确分辨人和机器,则认为机器“有”智能。图1是图灵测试的图示,其中机器和人分别在两个房间里,房间外的人类裁判向两个房间提出相同的问题,并根据回答分辨哪个房间里是人、哪个房间里是机器。图灵预期,到2000年前后,机器将能够通过5分钟的图灵测试。
图片
图1 图灵测试的图示(图片来自网络)
对图灵测试的主要质疑是:仅仅根据机器与人外部表现的不可分辨,就能断定机器拥有人类的智能吗?普遍认为答案是否定的,有人提出了著名的“中文屋论证”加以反驳。这些质疑的出发点是单智假设,即假设世界上只有一种智能,就是人类智能,所以人工智能的工作原理必须与人类智能相同。
1955年麦卡锡等人提出Artificial Intelligence这个词。普遍认为,这个词指的就是用人工方法模拟人类智能。可是麦卡锡本人在其个人主页上明确否定了这种解读,并指出:Artificial Intelligence是“研究世界对智能提出的问题,而不是研究人或动物”。这实际上否定了单智假设。
其实图灵早在1948年的内部报告[2]中就预先解答了这一疑问。该报告隐含着一个革命性的思想:机器智能的工作原理与人类智能的工作原理可以相同,也可以不同。因此,不必考虑机器智能与人类智能的原理是否相同;换言之,不必考虑机器智能与人类智能是不是同一种智能,只需考察它们的表现是否相同或相似,能否完成相同或相似的功能。图灵测试正是在此基础上提出,用来验证图灵的机器智能观的一种科学实验。
2025年3月发布的一份报告[3]称,大模型“首次通过了图灵测试”。报告的主要实验结果如下。第一,带“人设提示”的大模型GPT-4.5的测试胜率为73%(即有73%的人类裁判将大模型识别为人),带“人设提示”的大模型LLaMa-3.1的胜率为56%。也就是说,大部分人类裁判将这两个大模型误识别为人。第二,当这两个大模型不带人设提示时,其胜率仅为36%和38%,即大部分人类裁判能够正确识别。第三,对不带人设提示的大模型GPT-4o和1960年代的聊天AI程序ELIZA也进行了图灵测试,它们的胜率分别为23%和21%,其中ELIZA是基于规则的AI。可见人设提示对实验结果具有决定性影响。
实验采用的人设提示包含1244个英文单词,要求大模型模仿内向、熟悉网络文化的年轻人,并在测试之前将提示输入大模型。提示的第一部分是关于大模型应扮演何种角色(即“人设”)的指示,包括对其应使用的语气和语言风格的具体要求,包括故意犯小错误(如打字错误)。第二部分包含比赛规则的说明,其内容与呈现给参加测试的人类选手的参赛说明完全相同。第三部分提供了一些普遍有用的信息,比如关于测试的补充背景资料,以及模型训练数据截止之后发生的一些重大事件的说明等。
在我看来,图灵测试中人类裁判的识别技能有三种可能来源:日常经验(即日常生活、学习或工作中获得的经验)、专业训练(有关大模型的专业训练)、专门研究(有关大模型和人工智能的专门研究)。对应地,只依靠日常经验的裁判属于业余级,同时依靠日常经验和专业训练的裁判属于专业级,依靠全部三类技能的裁判属于专家级。
根据实验组织者的数据分析,本次实验中人类裁判主要依靠日常经验,极少依靠专业训练,完全没有使用来自专门研究的识别技巧。换言之,本次实验的裁判几乎都是业余级。他们最常用的提问技巧是:询问日常活动、情绪体验和个人细节,其准确性都较低。识别准确性最高的是询问奇怪少见的话题,但裁判很少使用(2.7%)。准确性第二高的是使用“越狱”技巧(来自专门训练),实验中被使用得更少(见图2)。这些数据表明,本次实验中,人类裁判的识别策略基本上是无效的。
图片
图2 测试数据(左:提问策略的使用频率;右:提问策略的平均准确性)
为了判断实验组织者的结论是否真的成立,即判断这次实验是否真的证实了大模型已经通过了图灵测试,首先要问:图灵心目中的图灵测试到底使用哪些识别技能?图灵在1950年的文章中给出了三个假想的测试例子,从而明确地展示了他自己采用的识别技能。在第三个例子(如表1所示)中,图灵假想机器写了一首14行诗,然后人类裁判提出了一系列问题,其中第一个问题涉及意向性语义替换。显然,这是一个深入研究机器智能的专家才可能提出的问题。这表明在图灵的心目中,是由研究机器智能的专家担任图灵测试的主裁的。
表1 图灵假想的一次图灵测试
图片
基于上述事实和分析,我将图灵测试细分为三个等级:由业余级裁判主裁的初级图灵测试;由专业级裁判主裁的中级图灵测试;由专家级裁判主裁的高级图灵测试。另外,带人设提示的大模型也是大模型,所以下面的讨论不再区分带不带人设提示。
根据以上讨论,我认为这次图灵测试的实验结果表明,大模型通过了初级图灵测试,没有证据表明通过了中级或高级图灵测试。所以严格地说,大模型尚未通过图灵测试,因为图灵心目中的图灵测试是高级图灵测试。
但是,肯定大模型通过了初级图灵测试,仍然具有重大意义。这次实验的人类裁判是在校本科生和Prolific平台工人(根据实验组织者的数据分析,前者的识别能力略强于后者),如果实验结果具有普遍性,那就意味着,不仅多数在校本科生不能正确识别大模型,而且只拥有日常经验的普通人都无法正确识别大模型。这意味着人工智能应用进入了大众化阶段,人类智能与机器智能的关系发生了根本性变化,一个前所未有的双智社会正浮出水面。
为了认清这一变化的真正含义与后果,有必要深入理解大模型背后的科学原理。
二、人工智能的原理性突破/局限
与以往的人工智能技术相比,大模型隐含着原理性突破,这些突破本身也是新的原理性局限。
大模型技术体系概貌如图3所示,主要包含三大块:预训练、后训练和激发。通过预训练生成基础大模型,所使用的训练语料包括教科书、专著、论文、专利说明书、文学作品等所有可用的电子文档(据估计,某些大模型的训练语料相当于互联网2/3文本量),并从中提取语元(即字词标点符号)之间的关联度(即统计关联的强度)。在回答用户提问时,大模型根据已经提取的关联度重复或重组语元,形成对提问的回答。
人们发现,大模型可以回答各种各样的问题,而且多数回答是正确的,这令很多人深感震撼,同时也带来多方面的强烈冲击。对教育系统而言,大模型对以书本知识传授为主的现行教育模式产生了巨大冲击——大模型从训练语料中获取的内容,似乎远远超过学生通过现行教育模式学到的东西,那么人工智能时代的教育将走向何方?普遍而言,最大恐慌在于:如果大模型可以像人一样地工作,能力却比人更强,而且越来越强,那么人类还能不能生存下去?本文的分析表明,情况并非如此,人类可以与人工智能长期共存。
图片
图3 大模型技术体系概貌
回到大模型的技术体系,由于基础大模型往往答非所问,所以研究人员针对各种下游任务收集人类反馈数据或其他数据进行后训练,训练后回答问题的性能有明显提升。另外,通过激发可以让大模型对具体问题的回答变得更好。
需要补充说明的是,上述三大块只是纯大模型技术,而在实际的大模型研发中,还同时采用了大量传统技术,所以大模型通常并非仅由纯大模型技术构建而成。但现阶段人工智能的主要突破来源于纯大模型技术,所以我们聚焦于纯大模型技术的原理性分析。
我发现,预训练和激发的共同基础设施(或底层机制)是关联度预测。我把关联度预测形式化为类LC理论[4, 5],包含如下三条公理:
图片
三条公理代表关联度预测在理论上的基本假设。例如,公理1中的图片是由n个语元(token)组成的序列,代表一次对话中已经出现的所有n个语元,称为语境(即上下文);是图片中的一个语元;图片是任意一个语元。公理1表达如下理论假设:在任何语境图片下,其中一个语元与任意语元图片之间存在关联度图片,它的值在0到1之间。所有图片和它们的值通称为公理1的“实例”。公理2是对关联度进行推断(inference)的规则,公理3是决定推断结果的规则(在不同的应用中可能需要不同的公理3)。
对于大模型的预训练和激发而言,确定一个关联度图片的值的唯一有效的根据是训练数据。这里存在一个深层障碍:由于公理1中的n是没有上限的(下限为1),所以需要无穷多训练语料,才可以提取所有图片的值。但语料不可能是无穷的,结果大模型通过训练只能确定有穷多个图片的值,而其余无穷多个图片的值是“缺失的”;也就是说,并非所有图片的值都可以通过训练从语料中获得。这种情况称为类LC的实例性。以往的人工智能、数学、逻辑和科学理论,都不是基于实例性的,所以实例性是大模型带来的一项原理性突破,同时也是一项原理性局限。
在大模型的实际应用中,为了回答用户提问,有时难免需要用到一些缺失的图片,怎么办?没有别的办法,只能利用算法为这些图片赋值,这种赋值是没有充分根据的,既没有数据根据也没有其他种类的充分根据,所以有可能产生错误。从这些错误赋值的图片出发,利用公理2和公理3进行推断,生成大模型的回答,这些回答往往也是错误的。这就是大模型无法避免犯错的根本原因。这些错误起源于对某些关联度的无根据赋值,导致大模型的相应回答给人无中生有的感觉,有时被比喻为大模型的“幻觉”。
在我的文章[4]发表以后,陆续出现了越来越多深度测试,揭示了大模型的各种奇异表现。到目前为止,已发现的大部分奇异表现都可以用类LC理论加以解释,有些甚至是被类LC理论提前预言的,并且迄今没有发现类LC理论的反例。
下面介绍三个深度测试的例子。第一个例子是关于计数和逻辑否定的[6]。测试中向大模型提出如下问题:
How many times is p negated in the following formula:
∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ ∼ p?
即问命题变元p前面有多少个否定词∼。大模型回答28个,但实际上是27个。解答这个问题只需数一数p前面否定词∼的个数,大模型却数错了。这就导致大模型对逻辑否定的运算结果也是错误的。计数和逻辑否定分别是数学和逻辑的基本运算,如果这两个运算不对,其他运算的正确性也失去了保证(事实上,更多深度测试发现了大模型数学和逻辑运算的更多错误)。
……
