医疗领域需医生或AI

我说什么来着，医疗领域，还得找医生或者专业AI。

关于AI大模型是否能代替医生看病这个话题，从来争论就没有停止过，最近叨哥又刷到了一篇美国同行的研究，给大家简单解读一下。

这个研究的发起者是美国麻总百涵医疗集团，其中的“麻”，指的是哈佛大学医学院附属的麻省总医院，美国最顶尖的医院之一。该团队研究对比了21个通用大语言模型，包括当下最新版的ChatGPT、DeepSeek、Claude、Gemini、Grok等，包含了世界各地的主流通用大模型。

他们测试了模型处理29个已发表临床病例的能力：为模拟真实临床场景的信息逐步呈现过程，研究者分步投喂信息——先从年龄、性别、症状等基础信息开始，再逐步加入体格检查、实验室检查结果。评估者对模型在每一步的表现打分，据此计算模型的总体PrIME‑LLM得分。

结果很有意思：LLM确实很擅长给出准确的最终诊断，只要数据够全。然而在病例初期、信息有限的开放式阶段，所有通用模型在超过80%的情况下，都无法生成恰当的鉴别诊断！这个误诊率就有点高了！

在真实临床中，鉴别诊断至关重要！干过临床都知道，我们在采集病史的时候，病人提供的信息往往掺杂大量无效信息的，如何能够从病人提供的有限的信息里面抽丝剥茧、找到方向，这正是我们医生不可替代的临床诊疗能力。

我们先不要说情感关怀、情绪价值、语言按摩这些人类之间才能提供的高级服务，就单纯的医疗诊疗服务来讲，通用大模型的思考推理方式依然没有办法媲美人类人类的神经系统。

说到这里，可能有人会问，那AI是不是就没用了？那也不是。

大家都到各种不同级别的医院去看过病，应该都有体会：级别越高的医院，越大的医院，科室分的越细。乡镇卫生院可能只有一个内科一个外科；到了县医院就有了外一科、外二科、外三科，这一个外科里面，可能包括神经外科、泌尿外科、胸外科等；到了市级医院，各专业基本上就单独成科了，但到了省级头部医院，还要进一步细分，比如神经外科又分为功能神经外科、小儿神经外科、颅底神经外科、肿瘤神经外科等等。

为什么会这么划分呢？因为术业有专攻，越是细分，就越能在一个细小领域做到极致。比如某个教授，在网上可能不是最有名的，但在某个医学领域细分专业，基本上就做到了他就是唯一的权威，在这个细分领域就得听他的。

这个思路套到AI上，逻辑是一样的。

我觉得以后的发展方向也是往专业、细分领域走，我们日常用到Deepseek、豆包、千问、Gemini这类通用大模型，就相当于是一个基础设施，在社交娱乐旅行生活等领域提供服务，但在专业严肃领域，一定还是要依靠专业的AI，专注于某些细分领域不断迭代，有针对性地改进推理模式，从而成为专业人士或者普通人寻找专业帮助的时候的助手。

现在国内外也陆续有一些代表性的专业AI出来。这些AI在回答这些专业的问题的时候，我认为是优于通用大模型的，尤其是医疗健康领域，专业和通用的差距还是比较大的。比如我们专业人士和患者经常用到的蚂蚁阿福这类AI，它的深度学习能力、专业推理能力以及更专业的训练数据库，让它给出的答案更专业、更准确，AI幻觉也更少。

科技改变生活，技术进步带来的一定是生活的便利。普通人其实不用了解算法怎么优化、产品怎么迭代，甚至不需要去了解它们的原理。我评价一台冰箱好坏，我也自己不需要学会制冷。我们就根据自己的实际体验，选择更高效、更准确的AI为我们的日常生活服务就好了。AI拿不准的，咱就及时找医生。

发布于北京