在一项医学对比研究中，ChatGPT在临床推理方面胜过了人类医生。《美国医学会内科医学杂志》刊载了一项研究，贝斯以色列女执事医疗中心的医生科学家们将大型语言模型的推理能力与按照评估医生能力的标准测试的人类能力进行了直接比较。结果发现ChatGPT-4在分析医疗数据和进行临床推理方面，超越了两家

在一项医学对比研究中，ChatGPT在临床推理方面胜过了人类医生。
《美国医学会内科医学杂志》刊载了一项研究，贝斯以色列女执事医疗中心的医生科学家们将大型语言模型的推理能力与按照评估医生能力的标准测试的人类能力进行了直接比较。结果发现ChatGPT-4在分析医疗数据和进行临床推理方面，超越了两家学术医疗中心的内科住院医生和主治医生。（论文地址：http://t.cn/A6TIXHGD）

1、“我们很早就发现，大型语言模型能够做出诊断，但医学专业的人都知道，医学远不止表面看起来那么简单，”贝斯以色列女执事医疗中心的内科医生兼研究员Adam Rodman博士表示。“诊断有许多的步骤，因此我们想看看大型语言模型在进行这类临床推理方面是否能媲美医生。但是惊人的是，AI在处理临床案例时展现出的推理能力，竟然等同于或超过了人类。”

2、Rodman和他的团队采用了一种经过验证的用于评估医生临床推理能力的工具，名为修订版的IDEA（r-IDEA）评分系统。研究人员招募了21名主治医师和18名住院医生，他们分别处理了20个精选临床案例中的一个，这些案例分为四个连续的诊断推理阶段。研究指导医生在每个阶段详细阐述并解释他们的差异性诊断。ChatGPT-4机器人接收到了相同的指令，完成了所有20个临床案例的推理。随后，根据临床推理（r-IDEA评分）和其他几项推理指标对它们的答案进行了评分。

3、“第一阶段是初筛数据，这是病人描述自己的病情并提供生命体征的时候”，“第二阶段是系统回顾，此时你会从病人那里获取更多信息。第三阶段是体格检查，第四阶段则是诊断测试和影像学。”

4、Rodman、Cabral及其同事发现，聊天机器人获得了最高的r-IDEA评分，大型语言模型的中位分数为满分的10分，而主治医生和住院医生分别为9分和8分。在诊断准确性——即正确诊断在他们提供的诊断列表中的排序——和正确的临床推理方面，人类医生和机器人相差无几。

5、“早期研究表明，如果AI获得了所有必要信息，它就能做出诊断，”Rodman说。“我们的研究显示，AI展现了真实的推理能力——可能在多个处理步骤中比人类的推理能力更强。我们面临一个改善患者医疗体验和质量的独特机会。”但是，研究人员也发现，与住院医生相比，AI在答案中的错误推理的实例明显更多，所以人机合作是一个非常好选择。（这句话的意思是，虽然AI总体表现不错，但错的时候，也会错的特别离谱，把基本问题搞错）

发布于北京