查看原文
其他

论文速递-新冠死亡率的辛普森悖论,因果推断的一个例子

Peter东 混沌巡洋舰 2023-04-28
本文基于“SIMPSON’S PARADOX IN COVID-19 CASE FATALITY RATES: A MEDIATION ANALYSIS OF AGE-RELATED CAUSAL EFFECTS” 这篇arxiv论文,该文为教学性的。

1)问题引入

上图是中国和意大利的新冠死亡率,图中每个年龄段,中国的都大于意大利,但意大利的总死亡率却比中国更高,这在统计学中被称为辛普森悖论,指在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

对此,直接的解释是,由于意大利的老龄化程度更高,所以总死亡率更高上图是意大利和中国的人口比例对比。

但更深刻的解释是:分开分析时,存在一个中间变量。任何两个统计变量X与Y之间,都存在三种可能的因果关系中的一种,要么是X导致Y,要么是Y导致X,或者存在一个共同的原因Z,同时导致了X与Y。在新冠死亡率的案例中,年龄A,死亡率M这两个变量之间存在一个共同的原因-国家C。



其中,C到A代表国家不同,人口结构不同,A到M代表不同年龄,会导致死亡率不同,而C到M代表不同国家的医疗水平不同,防疫政策不同,造成的死亡率的差异。而这正是因果推断要去衡量的。这在因果推断中被定义为Total causal effect(TCE),计算公式为:

在新冠的例子中,该式的含义是,如果意大利和中国具有相同的人口结构和抗疫措施,死亡率会是多少?根据Pearl提出的do-calcuscus,可以通过观察数据估算出该数值为意大利和中国的整体死亡率之差4.3%-2.3%=2%。


因果推断还能回答下面的三个问题,一是对于特定的年龄,例如50-59岁,不考虑国家在医疗水平和防疫措施上的区别,是中国人或是意大利人感染新冠后,预期死亡率更低?该问题的回答是,意大利的死亡率0.2%,相比中国的1.1%,更让患者安心。

二是如果中国采取了意大利的防疫措施,那会怎样影响新冠死亡率,对此的回答是这样总的死亡率会增加0.8%,从2.3%增加到3.1%该问题等价于反事实的问题。

三是如果另一个国家,例如西班牙采取了中国的,而不是意大利的防疫措施,在考虑西班牙的人口结构时,会产生怎样的效果。
 对此,可以将死亡率分为直接受到防疫措施直接引起的,以及由于间接的影响造成的死亡率,下图中的纵轴是死亡率,该图回答了上述问题。
对于该文,读者可能会问,为什么只用年龄作为mediator变量,可能还有性别,经济状况,饮食习惯等变量,也可能造成辛普森悖论

为了应对该问题,可以在因果图上增加一个selection的变量,代表在选择那些mediator时,可能的bias,从而扩展分析框架

任何因果分析,都需要从关于数据生成过程的一组假设开始。虽然我们的模型假设是对实际潜在现象的过度简化。但该例子说明,

最后关于因果推断,推荐三本入门书:

写给普通人的因果逻辑入门书-《别拿相关当因果!》

好书推荐-《结果与原因的经济学》极简因果推断教程

从相关性到因果性-读《The book of why》

如果三本书中,找出最适合入门的一本,又相对全面的一本,那是第一本


更多阅读

樱花,气候,相关性与因果性

将因果思维融入机器学习,实现信息处理的自动化

速读悖论,兼谈因果推断的重要性




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存