通用AI医疗诊断能力不足

看到@不神经的神经叨微博里聊到的一篇文章，结论有点子“耸人听闻”…
哈佛医学院的实验中，对21款通用的AI大模型，在病例初期、信息有限的开放式阶段，所有通用AI模型中有80%都无法生成恰当的鉴别诊断！

要知道——鉴别诊断相当于临床医疗“狼人杀”里的“金水”。它不是最终诊断的那一锤子，而是代表着整个临床诊断逻辑思维过程的推理方法。
它是医生在面对患者时，系统性列出所有可能引起这些表现的疾病，并通过分析、比较和进一步检查，逐一排除或确认，最终“找出真凶”的断案过程。
这是一个删去无效信息、去伪存真的过程。
鉴别诊断是避免误诊漏诊的关键，因为它本身就是“举证-排查”思维过程的体现。对一位临床医生来说，做好鉴别诊断是基本功，也是看病水平的体现——可以说，鉴别诊断稀烂的医生，毫无疑问要么看病没用心，要么脑子一团浆糊。
所以…某种意义上说，这个研究结果就是在宣告：目前很多给用户提供医疗健康建议（其实就相当于看病吧）的AI软件（主要是通用AI大模型），以对人医的标准看就是“脑子一团浆糊”…

不过，需要说明的是，这里并不包括专业AI。恰恰相反，一些垂直专业AI产品的出现就是为了解决通用AI可能面临的不够专业的问题。且据我所知，不少临床医生日常也在用某些专业AI，并会推荐给患者，像比较有代表性的蚂蚁阿福、小荷医生等等。
毕竟，专业AI和通用AI的底层逻辑还是很不同的。专业AI的训练语料和推理路径更贴近医学本质，比如蚂蚁阿福能模拟医生的深度学习和专业推理能力，关键是——底层大模型的训练和语料库更严格更专业，都是中华医学杂志社这类权威知识库。而且用户绑定智能设备后可以同步血压、血糖、病史等信息，AI结合上下文判断更准。

我顺着整篇文章理了一下，感觉通用AI主要问题在这里：
首先，目前的AI模型都面临一个『信息污染』的问题。网络上每时每刻都在套娃生成（互相抄）大量偏颇的、错误的信息流，如果无法去伪存真、筛除无效错误的信息，那么AI反馈回的内容可信度就大打折扣。这在极端讲求稳定靠谱的医疗领域是致命的…
而以上痛点，对通用AI模型来说问题更严重——就像人类职业的“术业有专攻”一样，专业AI的训练语料准入更严格、来源更专业精准，比如阿福底层模型的语料来自医学文献、权威医学教科书、临床指南和脱敏后的公开医疗数据集，并且通过专业评测集持续训练；通用AI面对的无效信息筛选压力更大、“淬火”更难完成（很多人也发现了：通用AI可能会“编数据/文献骗人”）。
所以我蛮认同叨哥的看法：“以后的发展方向也是往专业、细分领域走，我们日常用到Deepseek、豆包、千问、Gemini这类通用大模型，就相当于是一个基础设施，在社交娱乐旅行生活等领域提供服务，但在专业严肃领域，一定还是要依靠专业的大模型和AI，专注于某些细分领域不断迭代，有针对性地改进推理模式，从而成为专业人士或者普通人寻找专业帮助的时候的助手。”
其实这也很符合医疗人的认知：越复杂就越要领域细分，医疗领域很难有真正意义上的“全才”，专家基本都是某一细分领域的权威，在某个病、某个治疗中，人家就是能说话一锤定音。

总结一下：问一些日常问题，通用AI的确不错，但在细分领域，个人感觉在内容准确性/及时性上，专业AI明显强于通用AI。特别是医疗领域，专业>>通用且差距在不断拉大。
大家如果日常要“AI看病”（需谨慎！找AI要医疗建议需谨慎！不能替代人医看病！）的话，尽量选专业AI。
最后，希望AI多点靠谱，少点“幻觉”；多替我们干点活，少让我们被炒鱿鱼…

发布于湖北