我说什么来着,医疗领域,还得找医生或者专业AI。
关于AI大模型是否能代替医生看病这个话题,从来争论就没有停止过,最近叨哥又刷到了一篇美国同行的研究,给大家简单解读一下。
这个研究的发起者是美国麻总百涵医疗集团,其中的“麻”,指的是哈佛大学医学院附属的麻省总医院,美国最顶尖的医院之一。该团队研究对比了21个通用大语言模型,包括当下最新版的ChatGPT、DeepSeek、Claude、Gemini、Grok等,包含了世界各地的主流通用大模型。
他们测试了模型处理29个已发表临床病例的能力:为模拟真实临床场景的信息逐步呈现过程,研究者分步投喂信息——先从年龄、性别、症状等基础信息开始,再逐步加入体格检查、实验室检查结果。评估者对模型在每一步的表现打分,据此计算模型的总体PrIME‑LLM得分。
结果很有意思:LLM确实很擅长给出准确的最终诊断,只要数据够全。然而在病例初期、信息有限的开放式阶段,所有通用模型在超过80%的情况下,都无法生成恰当的鉴别诊断!这个误诊率就有点高了!
在真实临床中,鉴别诊断至关重要!干过临床都知道,我们在采集病史的时候,病人提供的信息往往掺杂大量无效信息的,如何能够从病人提供的有限的信息里面抽丝剥茧、找到方向,这正是我们医生不可替代的临床诊疗能力。
我们先不要说情感关怀、情绪价值、语言按摩这些人类之间才能提供的高级服务,就单纯的医疗诊疗服务来讲,通用大模型的思考推理方式依然没有办法媲美人类人类的神经系统。
说到这里,可能有人会问,那AI是不是就没用了?那也不是。
大家都到各种不同级别的医院去看过病,应该都有体会:级别越高的医院,越大的医院,科室分的越细。乡镇卫生院可能只有一个内科一个外科;到了县医院就有了外一科、外二科、外三科,这一个外科里面,可能包括神经外科、泌尿外科、胸外科等;到了市级医院,各专业基本上就单独成科了,但到了省级头部医院,还要进一步细分,比如神经外科又分为功能神经外科、小儿神经外科、颅底神经外科、肿瘤神经外科等等。
为什么会这么划分呢?因为术业有专攻,越是细分,就越能在一个细小领域做到极致。比如某个教授,在网上可能不是最有名的,但在某个医学领域细分专业,基本上就做到了他就是唯一的权威,在这个细分领域就得听他的。
这个思路套到AI上,逻辑是一样的。
我觉得以后的发展方向也是往专业、细分领域走,我们日常用到Deepseek、豆包、千问、Gemini这类通用大模型,就相当于是一个基础设施,在社交娱乐旅行生活等领域提供服务,但在专业严肃领域,一定还是要依靠专业的AI,专注于某些细分领域不断迭代,有针对性地改进推理模式,从而成为专业人士或者普通人寻找专业帮助的时候的助手。
现在国内外也陆续有一些代表性的专业AI出来。这些AI在回答这些专业的问题的时候,我认为是优于通用大模型的,尤其是医疗健康领域,专业和通用的差距还是比较大的。比如我们专业人士和患者经常用到的蚂蚁阿福这类AI,它的深度学习能力、专业推理能力以及更专业的训练数据库,让它给出的答案更专业、更准确,AI幻觉也更少。
科技改变生活,技术进步带来的一定是生活的便利。普通人其实不用了解算法怎么优化、产品怎么迭代,甚至不需要去了解它们的原理。我评价一台冰箱好坏,我也自己不需要学会制冷。我们就根据自己的实际体验,选择更高效、更准确的AI为我们的日常生活服务就好了。AI拿不准的,咱就及时找医生。
发布于 北京
