#健闻登顶计划# 【值得高度关注】医疗AI真的有用吗?请给我们证据!近年来,AI正迅速进入医疗体系,从疾病预测、临床决策支持,到大众使用的大模型问诊工具,应用场景不断扩展。然而,一个核心问题越来越突出:这些AI工具真的改善了医疗吗?
目前,大多数医疗AI的评估仍停留在技术层面,例如准确率、敏感性和特异性等指标。这些指标可以证明模型“算得准”,但并不能说明它在真实临床中有确定价值。一个AI系统即使在回顾性数据中表现优异,也可能因为输出难以理解、使用时机不合适或干扰临床流程,而无法改善患者结局。
这正是当前医疗AI面临的核心问题:技术表现不等于临床价值。但现实中,许多论文和产品宣传已经开始频繁使用“改善医疗”“提高效率”等说法,而这些结论往往缺乏足够证据支持。这不仅带来科学上的不确定性,也可能导致医疗机构过早采用尚未验证价值的技术。
相比之下,传统医学领域有着严格的证据体系。例如新药上市,必须经过逐步增强的临床研究验证,并由监管机构决定是否批准。而医疗AI目前尚未建立类似统一标准,研究往往偏重技术性能,而忽视实际临床效果、可操作性和安全性。
因此,研究者提出一个关键原则:“证据应与结论相匹配”。也就是说,不同类型的主张,需要不同强度的证据支持。例如:如果声称算法准确,就需要严格的验证数据;如果声称可以辅助决策,就必须证明医生能理解并使用其结果;如果声称改善临床结局,就需要更强的前瞻性研究,甚至对照研究。
同时,由于AI模型会随时间变化,其效果也可能下降,因此持续监测应成为常规要求,而不是可选项。
需要强调的是,这并不意味着所有AI工具都必须像新药一样进行大型随机对照试验。考虑到AI更新快、成本高、应用复杂,完全照搬传统路径并不现实。但仅依赖回顾性数据就直接投入使用,同样缺乏科学严谨性。合理的路径是:根据应用风险和影响程度,提供“相称强度”的证据。
这一原则对各方都有现实意义。监管机构需要明确哪些AI必须提供临床证据,医疗机构应区分“试点应用”和“已证实有效”,而科研期刊也应提高发表标准,避免将技术潜力误当作临床价值。
本文刊登在国际医学权威期刊《自然 医学》上。
有个例子非常有趣:AI根据血液参数和临床症状精准预测败血症,医生因此提前干预治疗,结果败血症少了,模型就不再准确。所以,AI的自我进化功能要很强。
