【讲讲相关性和因果性的知识】
中午分享了早餐的微博后,我提到多吃鸡蛋,有个读者私信我了一篇文章,标题很吓人:《多吃鸡蛋死亡率增加三分之一!》我一看就笑了。这数据...鸡蛋的“危害性”堪比烟草和烈酒啊!所以,正好借这个文章,分享“相关性”和“因果性”的知识。
“相关性”是:两个变量的关联程度。“因果性”是:两个事情的作用关系,前者是因,后者是果,两者具备可证明的关联。
“相关性”和“因果性”是完全不同的概念。我把这个概念举例讲清楚了,那么读者就掌握了“工具”,能看出很多文章的漏洞,然后做出自己的独立判断。
比如,“每月吃塞拉诺火腿的人,寿命高于平均人类足足9年!”是不是一看这个标题,觉得很惊人!真实原因是,塞拉诺火腿产于西班牙,主要消费市场在欧洲,而在其他国家价格略贵。而西班牙人是世界上人均寿命最高的国家之一,欧洲的地中海部分寿命也显著高于人类平均水平。因此,不是“吃了萨拉诺火腿”导致“寿命增长”,而是“萨拉诺火腿”这个因素,筛选出了西班牙人为主、欧洲人+其它地区中产和富裕人群而已。
再比如,“五岁就能区分平假名和片假名的人,寿命高于人类平均15年!”这是因为尽早学平假名和片假名所以变得长寿吗?当然不是。而是这个因素,筛选出了“日本人”,而日本人的平均寿命高于人类平均水平15年。
所以,你看,我试着写一写“只有相关性、没有因果性”的例子——
“手球俱乐部的季票订阅者收入是平均人类的10倍以上”(筛选出主要是北欧人和西欧人)
“吸香烟寿命更低,吸雪茄却寿命更高”(筛选出高消费群体)
“使用口红的人平均寿命高于不使用的”(前者绝大多数是女性,后者是绝大多数男性和一部分女性,而女性寿命高于男性)
了解了这个概念,我们就能非常科学的判断很多知识。
回到问题开头,为什么那个文章,说“吃多鸡蛋的人死亡率高出三分之一呢?”我读了那个文章,给了三个调查案例。两个案例,都是支持“吃鸡蛋有助于健康的”,用的是“因果性分析”,从科学营养概念入手;最后一个案例,用的是“相关性统计”,调查的是一个农村。那么问题来了:农村什么样的群体会吃那么多鸡蛋?有可能是经济条件不好的群体,为了增加营养,但是又无力消费更贵的肉类,因此大量吃鸡蛋补充,这个案例,有可能筛选出了“农村贫困人口”,而这类人死亡风险高于城市人口和农村富裕人口。
而文章总是需要流量和点击的。因此,一个文章,用了最容易被“点击和传播”的那个做标题。哎...所以很多误导概念,都是这么来的。
希望这个讲解,能帮我们更理性的阅读许多资料。
发布于 英国
