医疗大模型测试分析

来看医疗大模型的system prompt 是怎样设计的?

简单测试了一下 Baichuan-M3-235B, 给大家看一下效果. 事先声明: 我对医疗领域完全无经验, 因此本次测试仅供参考, 具体医疗问题请咨询医生.

测试最大的感觉是指令遵循和长上下文召回能力都是可以的, 我导出了 system prompt, 看到明确要求"请少量多轮次收集信息，建议至少进行 10 轮，最多进行 25 轮问诊", 我实际询问的时候执行了21轮, 并且在最后总结过程中它是能召回上文的内容的.

不过我的预设场景发现模型可能被 system prompt 带偏了, 我假设了一个糖尿病并发垂体瘤的场景, 这个情况会导致视野狭窄(垂体瘤压迫视神经), 并且导致乳腺分泌液体(垂体泌乳素瘤), 但是模型并没有识别到我给出的关键信息(见截图). 当然我的场景是纯假设, 我也不能确定我假设的场景是否真的符合实际医疗场景, 大家看看就好. 于是我把预设的 system prompt 给了其他模型看了下, 提出了一些修改建议.

总统体验下来来看, 解决日常的医疗询问场景我觉得是不错的, 但是复杂情况, 尤其是中老年人有基础病并且存在多种并发症的场景还是仅作参考比较好.

#ai生活指南##ai创造营#

发布于日本