硅谷陈源博士 24-11-26 23:40
微博认证:美国佐治亚理工学院计算机科学博士,NVIDIA(英伟达)主任工程师

统计分析中,一个常见的错误就是将相关性误认为因果关系。导致这种错误的主要原因有两类:混杂因素(confounder bias)和碰撞偏差(collider bias)。

1. 混杂因素(Confounder Bias)

当两个变量(结果)都受到同一个因素的影响,如果在分析时未能将这一因素纳入考虑,就可能会错误地认为这两个变量之间存在因果关系。(图一)

举个例子,统计数据显示西瓜销量和犯罪数量之间有很强的相关性。然而,这两者之间并不存在因果关系,真正的原因是“夏天”这个共同因素:夏天吃西瓜的人多,同时由于人们外出活动增多,犯罪率也会上升。如果忽略了这个共同的因素,就可能得出错误的因果关系。

2. 碰撞偏差(Collider Bias)

当两个变量都影响同一个结果时,若仅选取具有该结果特征的样本进行分析,就可能错误地推导出两个变量之间存在因果关系。(图二)

比如,我在社交媒体上主要发布与数学知识和健身相关的内容,通常只有对这两个话题感兴趣的人才会成为我的粉丝。如果仅分析我的粉丝数据,就可能得出“喜欢数学的人也喜欢健身”的错误结论。

在新冠相关研究中,碰撞偏差问题屡见不鲜。例如,一些研究可能仅基于确诊的病例数据进行分析,而忽略了样本的代表性和随机性,这会导致结论的偏差。因此,研究中确保样本的代表性和随机性至关重要。

我们普通人学一点统计知识很有用,可以增强辨识能力,不容易被忽悠。

#科普##统计##数据分析##相关性不等于因果关系#

发布于 美国