麻醉医生凌楚眠 26-04-16 21:38
微博认证:微博2020人气健康医疗大V 麻醉科医师 2025微博年度新知博主

看到@不神经的神经叨 微博里聊到的一篇文章,结论有点子“耸人听闻”…
哈佛医学院的实验中,对21款通用的AI大模型,在病例初期、信息有限的开放式阶段,所有通用AI模型中有80%都无法生成恰当的鉴别诊断!

要知道——鉴别诊断相当于临床医疗“狼人杀”里的“金水”。它不是最终诊断的那一锤子,而是代表着整个临床诊断逻辑思维过程的推理方法。
它是医生在面对患者时,系统性列出所有可能引起这些表现的疾病,并通过分析、比较和进一步检查,逐一排除或确认,最终“找出真凶”的断案过程。
这是一个删去无效信息、去伪存真的过程。
鉴别诊断是避免误诊漏诊的关键,因为它本身就是“举证-排查”思维过程的体现。对一位临床医生来说,做好鉴别诊断是基本功,也是看病水平的体现——可以说,鉴别诊断稀烂的医生,毫无疑问要么看病没用心,要么脑子一团浆糊。
所以…某种意义上说,这个研究结果就是在宣告:目前很多给用户提供医疗健康建议(其实就相当于看病吧)的AI软件(主要是通用AI大模型),以对人医的标准看就是“脑子一团浆糊”…

不过,需要说明的是,这里并不包括专业AI。恰恰相反,一些垂直专业AI产品的出现就是为了解决通用AI可能面临的不够专业的问题。且据我所知,不少临床医生日常也在用某些专业AI,并会推荐给患者,像比较有代表性的蚂蚁阿福、小荷医生等等。
毕竟,专业AI和通用AI的底层逻辑还是很不同的。专业AI的训练语料和推理路径更贴近医学本质,比如蚂蚁阿福能模拟医生的深度学习和专业推理能力,关键是——底层大模型的训练和语料库更严格更专业,都是中华医学杂志社这类权威知识库。而且用户绑定智能设备后可以同步血压、血糖、病史等信息,AI结合上下文判断更准。

我顺着整篇文章理了一下,感觉通用AI主要问题在这里:
首先,目前的AI模型都面临一个『信息污染』的问题。网络上每时每刻都在套娃生成(互相抄)大量偏颇的、错误的信息流,如果无法去伪存真、筛除无效错误的信息,那么AI反馈回的内容可信度就大打折扣。这在极端讲求稳定靠谱的医疗领域是致命的…
而以上痛点,对通用AI模型来说问题更严重——就像人类职业的“术业有专攻”一样,专业AI的训练语料准入更严格、来源更专业精准,比如阿福底层模型的语料来自医学文献、权威医学教科书、临床指南和脱敏后的公开医疗数据集,并且通过专业评测集持续训练;通用AI面对的无效信息筛选压力更大、“淬火”更难完成(很多人也发现了:通用AI可能会“编数据/文献骗人”)。
所以我蛮认同叨哥的看法:“以后的发展方向也是往专业、细分领域走,我们日常用到Deepseek、豆包、千问、Gemini这类通用大模型,就相当于是一个基础设施,在社交娱乐旅行生活等领域提供服务,但在专业严肃领域,一定还是要依靠专业的大模型和AI,专注于某些细分领域不断迭代,有针对性地改进推理模式,从而成为专业人士或者普通人寻找专业帮助的时候的助手。”
其实这也很符合医疗人的认知:越复杂就越要领域细分,医疗领域很难有真正意义上的“全才”,专家基本都是某一细分领域的权威,在某个病、某个治疗中,人家就是能说话一锤定音。

总结一下:问一些日常问题,通用AI的确不错,但在细分领域,个人感觉在内容准确性/及时性上,专业AI明显强于通用AI。特别是医疗领域,专业>>通用且差距在不断拉大。
大家如果日常要“AI看病”(需谨慎!找AI要医疗建议需谨慎!不能替代人医看病!)的话,尽量选专业AI。
最后,希望AI多点靠谱,少点“幻觉”;多替我们干点活,少让我们被炒鱿鱼…

发布于 湖北