医疗AI需临床证据支持

#健闻登顶计划# 【值得高度关注】医疗AI真的有用吗？请给我们证据！近年来，AI正迅速进入医疗体系，从疾病预测、临床决策支持，到大众使用的大模型问诊工具，应用场景不断扩展。然而，一个核心问题越来越突出：这些AI工具真的改善了医疗吗？

目前，大多数医疗AI的评估仍停留在技术层面，例如准确率、敏感性和特异性等指标。这些指标可以证明模型“算得准”，但并不能说明它在真实临床中有确定价值。一个AI系统即使在回顾性数据中表现优异，也可能因为输出难以理解、使用时机不合适或干扰临床流程，而无法改善患者结局。

这正是当前医疗AI面临的核心问题：技术表现不等于临床价值。但现实中，许多论文和产品宣传已经开始频繁使用“改善医疗”“提高效率”等说法，而这些结论往往缺乏足够证据支持。这不仅带来科学上的不确定性，也可能导致医疗机构过早采用尚未验证价值的技术。

相比之下，传统医学领域有着严格的证据体系。例如新药上市，必须经过逐步增强的临床研究验证，并由监管机构决定是否批准。而医疗AI目前尚未建立类似统一标准，研究往往偏重技术性能，而忽视实际临床效果、可操作性和安全性。

因此，研究者提出一个关键原则：“证据应与结论相匹配”。也就是说，不同类型的主张，需要不同强度的证据支持。例如：如果声称算法准确，就需要严格的验证数据；如果声称可以辅助决策，就必须证明医生能理解并使用其结果；如果声称改善临床结局，就需要更强的前瞻性研究，甚至对照研究。

同时，由于AI模型会随时间变化，其效果也可能下降，因此持续监测应成为常规要求，而不是可选项。

需要强调的是，这并不意味着所有AI工具都必须像新药一样进行大型随机对照试验。考虑到AI更新快、成本高、应用复杂，完全照搬传统路径并不现实。但仅依赖回顾性数据就直接投入使用，同样缺乏科学严谨性。合理的路径是：根据应用风险和影响程度，提供“相称强度”的证据。

这一原则对各方都有现实意义。监管机构需要明确哪些AI必须提供临床证据，医疗机构应区分“试点应用”和“已证实有效”，而科研期刊也应提高发表标准，避免将技术潜力误当作临床价值。

本文刊登在国际医学权威期刊《自然医学》上。

有个例子非常有趣：AI根据血液参数和临床症状精准预测败血症，医生因此提前干预治疗，结果败血症少了，模型就不再准确。所以，AI的自我进化功能要很强。

发布于北京