今天来聊聊医疗大模型的分水岭。
今年之前,几乎所有医疗AI都存在一个致命问题:幻觉非常严重,经常一本正经地胡说八道。
而在医疗场景下,一个错误的药物建议、一次误判的病情分析,代价可能非常严重。
最近,百川智能发布了Baichuan-M2 Plus,医疗幻觉率大幅降低,只有4%。
这个模型在中国执业医师资格考试里拿了568分,远超360分的及格线,甚至比很多真人医生考得还高。
在训练模型的时候,他们没有让模型去死记硬背医学知识,而是教会了它查文献的方法。
这个方法叫作循证医学。
也就是,看病不能光靠经验和直觉,得拿证据说话。
当然,这个证据也有高低之分。
最可靠的是大规模随机对照试验和Meta分析,其次是队列研究、病例报告,最不靠谱的是某个医生的个人经验。
循证医学要求医生在做决策时,优先参考高质量证据。
这套方法论在医学界推行了三十年,现在已经是金标准,但AI领域之前一直没人这么干。
Baichuan-M2 Plus的核心创新就在这里。他们构建了一个六层证据体系,从4000多万篇医学论文到临床指南,从专家共识到真实世界数据,把医学知识按证据等级分门别类。
模型在回答问题时,会自动优先引用高等级证据。
更关键的是,他们引入了PICO检索框架。
这是循证医学里的标准方法,把临床问题拆解成四个要素:患者特征、干预措施、对照组、结局指标。
比如你问GLP-1药物能不能帮肥胖的糖尿病患者减重,模型会自动把这个问题拆成多个检索查询。有的查询聚焦随机对照试验,有的查询覆盖肥胖和代谢综合征研究,还有的专门搜系统综述。
这种多角度检索,既保证了精度,又保证了覆盖面。
最后模型会综合所有检索结果,给出一个有理有据的答案。
百川团队做了个对比测试,在多个医疗场景评估模型的幻觉率。结果,Baichuan-M2 Plus只有4%,GPT-5是5%,DeepSeek R1是9%。
4%意味着100个回答里,只有4个可能不靠谱,这个水平已经几乎接近人类专家了。
当然,跑分再高也不能说明实战能力,再看一下真实临床场景。
有个儿科医生遇到一个7岁孩子,反复肢体无力,已经发生过三次脑梗。检查结果显示多项自身抗体阳性。这种病例很罕见,症状零散,很难快速定位到某个具体疾病。
医生把病史和检查结果输入百小应,模型给出了几个可能的诊断方向,包括抗磷脂综合征、系统性红斑狼疮等,还建议进一步检查的项目。
医生说,这种罕见病场景最需要AI帮忙,因为单靠个人经验很容易遗漏关键信息,但AI能把零散的信息整合起来,拓宽鉴别诊断思路,同时给出下一步该做哪些检查。
模型的价值从来不是替代医生,而是快速整合信息、提供多维度的分析视角、避免遗漏关键细节。
医生可以把更多精力放在跟病人沟通、做最终决策这些机器做不了的事情上。
百川这次把Baichuan-M2 Plus接入了百小应App,同时开放了API调用。
医疗AI这个赛道,近两年热度很高。有人说它是下一个千亿市场,有人说它是伪需求。争论的焦点其实就一个:AI到底能不能真正帮助医疗。
医疗AI要真正成熟,还有很长的路要走。除了技术突破,还需要监管政策、医院流程、医生观念的配合。
但如果能让医生从繁琐的文献检索中解放出来,有更多时间跟病人面对面交流,那这个技术就是有意义的。
医疗AI的终极目标不是取代医生,而是让每个人都能享受到更好的医疗服务。
发布于 上海
