疗效检验核心方法

疗效检验基本概念

古代各地都有自己的医学，比如古希腊医学，古埃及医学或是古印度医学。这些医学都只在本地流行，为本地人信奉，外地人不懂也不关心，除了少数喜欢猎奇的另类。

现代医学没有地域性。任何属于现代医学的知识体系，不会被冠以某个代表国家或是民族的形容词，因为科学是普世的。也因为它是普世的，就会被所有国家的正规医院采纳。

现代医学不依附文化，只看客观检验的结果，所以被叫做循证医学。

这里谈几个客观检验最核心的概念。

第一，大样本。

大样本的意思是，个案不能下结论，甚至有三五个人报告同样的感受，也还是不能结论。研究样本数最低要求数千，样本越大，判断越可靠。

要求大样本，是为了排除特殊情况，尤其是个体差异造成的特殊情况。比如，你设计了一种药物，觉得它能让人长高。然后你想检验一下效果。你会怎么检验？

或许你会去找一个人，让他吃这个药，看看能不能长高。问题在于，倘若你找到的这个人碰巧是姚明（童年时代的姚明），那么他吃了这药，果然长得很高，这能不能说明你的药有效？

不能。因为我们都知道姚明长得高不是因为他吃了什么药。那是因为他有高个子基因。有那个基因在，他就算单吃白米饭也能长这么高。

如果你遇到这样的特例，很可能就会得出错误的结论。

那么怎么才能避免这样的错误？

大样本。

就是说，不是只找一个两个人做实验，人数必须多。比如找五百个人，让他们都吃这个药。因为生物多样性，这样的实验并不要求100%的期待结果，而是说，只要这五百个人里有足够多的人，比如四百多，吃了这药之后，个子明显高于平均水平，那就足可以说明你这药真的能让人长高，因为，五百个人里出现四百个姚明，那是不可能的。反过来说，如果五百个人吃了你的药，只有两三个长高，那就不能说明问题，因为五百个人里有两三个高个子，不算什么稀罕事。自然界本来就存在一些高个子，是他们体内的基因让他们长这么高。

第二，随机取样，就是说找实验对象的时候，不能有取样偏差。什么叫取样偏差？举个例子，比如你又发明一种新药，这个药不管长高，而是（预期）能增强体力。一般人跑5公里就累了，吃了这个药，跑10公里没事。那么你打算检验一下疗效。你怎么检验？你到特种部队去，找来100个特种兵，让他们吃这个药，然后说你们跑吧。结果人家一跑，别说10公里，他跑50公里都不累。

但是，这能说明你这个药有效吗？当然不能。特种兵每天高强度训练，跑50公里对他们不算个事。

所以，要客观检验一种药物的疗效，样本选取必须公平，不能有偏向，取样包含各种各样的人群，学校老师，大学生，农民，运动员，男女老少各种人都有，这样的样本才能代表“一般人群”。用这么随机挑选的试验对象去检验，他们吃了你这个药，确实体力增强，原来跑5公里就累，现在跑10公里才累，这就能说明问题了。

第三，对照组。

对照组为什么重要，我们可以用一个虚构的例子来理解。比如张三认为吃香蕉能治感冒，但是人家认为他瞎扯。他说好吧，你们不相信，那我做个实验来证明一下。怎么实验？他找来500个感冒病人，然后让这500个人天天吃香蕉，吃到第三天，大家感冒都好了。他就说您瞧，吃香蕉就是能治好感冒。

粗看这实验好像真说明问题。古代东西方许多“有效药”都是这么产生的。这个误判的关键问题是，张三不知道人体有免疫系统，而免疫系统能自己解决很多病，这就是疾病的自愈性。

张三不懂免疫系统，李四懂，李四过来跟张三说，你不能下这个结论。因为人体有免疫系统。到了第三天，免疫功能上来了，感冒自然就会好，跟你吃不吃香蕉没关系。

假设张三不懂免疫系统，但他是个实事求是的人，而且也有逻辑思维，打算进一步实验，看看能不能驳倒李四的质疑。那么他得怎么做？这就可以用到对照组的概念，他可以把实验这么修改一下。这500个感冒病人，他可以给分作两组。250个病人天天吃香蕉，这是实验组。另外那250个病人，他给吃一种我们知道肯定不治病的东西，比如说，淀粉。实验组天天吃香蕉，对照组天天吃淀粉。吃了一个星期，我们假设吃香蕉真能治疗感冒，一个星期之后一看结果，吃香蕉的那个组，病人第二天感冒都好了。吃淀粉的那个组，跟平时一样，得三天、四天、甚至五天感冒才好。如果有这样的结果，这个疗效就不能否认了，张三可以发表论文说，香蕉确实可以治疗感冒（别忙着去买香蕉，记住这是个虚构的例子）。

反过来说，如果两组被试都是三天之后痊愈，就说明香蕉跟淀粉一样，并没有治疗感冒的作用。

这就是对照组的意义。

要注意的是，对照组并不是万能。有一种情况能造成虚假疗效，而对照组却没法排除，这就是安慰剂现象。比方你发明一种新药，你认为它能止痛。现在你想检验一下这药的效果。你找来500个头疼病人，分两组，实验组吃你的止痛药，对照组吃淀粉。这实验的样本有500人，足够大，还有对照组，看起来设计相当完美。但是这里有个问题。倘若你给药的时候，跟病人说了这是一种止痛药。就因为这句话，病人心理就有了一种期待，而这种期待就有可能让他们感觉头痛真的减轻了。这就是安慰剂效果。推特上有个程序员，长期失眠，靠吃褪黑素帮助睡眠。有一天他在店里看到一种糖果，说含褪黑素，他就决定以后吃这种糖，比吞药品方便。换褪黑素糖之后效果不错，晚上也能顺利入睡。但大约一个星期之后，他偶然兴起，仔细看了看那个糖果包装上的小字说明，才发现买错了。这个牌子的糖果有几种，他买的那种其实并不含褪黑素，但他一直以为有，没想到那几天也睡得很好，这就是心理暗示带来的安慰剂效应。

心理暗示产生的不是真实药效，只有暂时效果，可是实验过程中，心理暗示会扭曲实验结果。这个问题怎么解决？有办法：实验过程中，不让病人知道他吃的是什么。实验组的新药，对照组的淀粉，都给做成不透明的胶囊，那么这两种东西看起来一模一样，实验组和对照组的病人都不知道他们吃的是什么，也就不会产生安慰剂效果。这样的条件下，一轮实验下来，吃新药的实验组，头疼确实明显减轻，那就可以说这药真的能止痛。这样的方法就叫做盲法，因为实验对象不知道他吃下去的是什么。

这个办法排除了大部分安慰剂现象，但并没有彻底排除。时间长了之后，做研究的人就发现，实验需要工作人员来操作，包括给病人发药，如果工作人员知道哪些病人是在实验组，哪些病人在对照组，那么他在跟病人接触的时候，就会无意识地暴露出一些蛛丝马迹。最典型的情况是他询问结果的态度。如果他去问实验组的病人“今天感觉怎么样”，因为他需要根据病人的回答来判断疗效，这让他等待病人回答的时候，神情会很关注。而如果他是去问对照组病人这个问题，他内心并不真的等待答案，因为他本来就知道淀粉不会止痛。他来问这句话，纯粹就是为了完成一个程序。这就让他在这个过程里多少会流露出一点漫不经心，一点敷衍。而医生的态度对病人的感觉是有明显影响的。实验组的病人，他感觉到这医生跟他说话的时候神情很关注，这就让他对这位医生更有好感，于是对吃下去的药就更有信心。这种信心就会产生安慰剂效果，也就是说，即使你发明的这个新药并没有止痛作用，病人也会报告说，他觉得头疼真的减轻了。这就干扰了疗效判断。

为了排除这样的干扰，后来做这样的检验，又增加了一个要求：不光是实验对象不能知道他吃的是什么，连操作人员都不能知道。具体实验的时候，从第三方请人，让他们把新药和淀粉做包装，包装上不能写药名，只能用含糊的方法来做标志，比如用不同颜色做标志，这个标志的意思只有他自己知道，被试和实验人员都不知道。标好了，他交给实验人员，让他们去发放，然后根据不用的颜色来追踪疗效。至于这些颜色代表什么，你现在别管。

这么操作，因为工作人员他自己都不知道哪些病人在实验组，哪些在对照组，那么他去询问结果的时候，不可能区别对待，问话时候态度会完全一样，这就避免了心理暗示带来的安慰剂效应。这样的实验方法，实验对象和工作人员双方都不知道谁吃实验用药，谁吃淀粉，这就叫做双盲法。而早先那种只有实验对象不知道实情的做法，就叫做单盲法。

古代各地的“地方医学”（也就是传统医学），都记载了许多“其效如神”的方子。进入现代之后，凡是愿意用这些客观方法去检验那些传统药物的地方，都得出结论：99%的传统药物是无效的。之所以之前被认为有效，就是因为古人不知道如何排除伪疗效。而造成伪疗效的原因，最主要就是这里提到的两条：免疫功能带来的自愈性，心理暗示带来的安慰剂效应。

你可能注意到“99%”，于是想到“至少还有1%是真正有效的”。没错，但问题在于，药物能有效，是因为它们以某种方式改变身体功能，改变身体功能的物质都是双刃剑，使用不当就会有毒副作用。要想尽可能提高疗效，尽可能降低毒副作用，需要有现代化学分析技术，需要对药物在体内的作用过程有精确的了解。古人没这样有的分析技术，那么即便发现某组织在有生物活性的物质，比如山羊豆，也没法充分利用，如果直接吃山羊豆，它对肝脏和肺脏造成的毒性，明显超过降糖带来的获益。只有现代科学完善之后，药物学家能把山羊豆的有效成分提取出来，再修改它的分子结构，去掉毒性，才能成为安全有效的二甲双胍。

（本文是2019年北京读者见面会上聊天内容的一部分，略做整理。）

发布于加拿大