首页
下载应用
提交文章
关于我们
问卷:你怎么看自由微信?
🔥 热搜 🔥
1
百度
2
今日热点
3
微信公众平台
4
贴吧
5
opgg
6
dnf私服
7
百度贴吧
8
知乎
9
dnf公益服
10
百度傻逼
分类
社会
娱乐
国际
人权
科技
经济
其它
首页
下载应用
提交文章
关于我们
问卷:你怎么看自由微信?
🔥
热搜
🔥
1
百度
2
今日热点
3
微信公众平台
4
贴吧
5
opgg
6
dnf私服
7
百度贴吧
8
知乎
9
dnf公益服
10
百度傻逼
分类
社会
娱乐
国际
人权
科技
经济
其它
陈佩斯,这次真悬了!
微博遗存之七
刚刚,我国DUV光刻机实现里程碑式突破!
2年翻10倍?万众期待的2025《山西文物日历》终于来了!一览千年壁画之美
微博遗存之六
生成图片,分享到微信朋友圈
查看原文
其他
论文速递-新冠死亡率的辛普森悖论,因果推断的一个例子
Original
Peter东
混沌巡洋舰
2023-04-28
本文基于“SIMPSON’S PARADOX IN COVID-19 CASE FATALITY RATES: A MEDIATION ANALYSIS OF AGE-RELATED CAUSAL EFFECTS” 这篇arxiv论文,该文为教学性的。
1)问题引入
上图是中国和意大利的新冠死亡率,图中每个年龄段,中国的都大于意大利,但意大利的总死亡率却比中国更高,这在统计学中被称为辛普森悖论,指在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
对此,直接的解释是,由于意大利的老龄化程度更高,所以总死亡率更高上图是意大利和中国的人口比例对比。
但更深刻的解释是:分开分析时,存在一个中间变量。任何两个统计变量X与Y之间,都存在三种可能的因果关系中的一种,要么是X导致Y,要么是Y导致X,或者存在一个共同的原因Z,同时导致了X与Y。在新冠死亡率的案例中,年龄A,死亡率M这两个变量之间存在一个共同的原因-国家C。
其中,C到A代表国家不同,人口结构不同,A到M代表不同年龄,会导致死亡率不同,而C到M代表不同国家的医疗水平不同,防疫政策不同,造成的死亡率的差异。而这正是因果推断要去衡量的。这在因果推断中被定义为Total causal effect(TCE),计算公式为:
在新冠的例子中,该式的含义是,如果意大利和中国具有相同的人口结构和抗疫措施,死亡率会是多少?根据Pearl提出的do-calcuscus,可以通过观察数据估算出该数值为意大利和中国的整体死亡率之差4.3%-2.3%=2%。
因果推断还能回答下面的三个问题,一是对于特定的年龄,例如50-59岁,不考虑国家在医疗水平和防疫措施上的区别,是中国人或是意大利人感染新冠后,预期死亡率更低?该问题的回答是,意大利的死亡率0.2%,相比中国的1.1%,更让患者安心。
二是如果中国采取了意大利的防疫措施,那会怎样影响新冠死亡率,对此的回答是这样总的死亡率会增加0.8%,从2.3%增加到3.1%该问题等价于反事实的问题。
三是如果另一个国家,例如西班牙采取了中国的,而不是意大利的防疫措施,在考虑西班牙的人口结构时,会产生怎样的效果。
对此,可以将死亡率分为直接受到防疫措施直接引起的,以及由于间接的影响造成的死亡率,下图中的纵轴是死亡率,该图回答了上述问题。
对于该文,读者可能会问,为什么只用年龄作为mediator变量,可能还有性别,经济状况,饮食习惯等变量,也可能造成辛普森悖论
为了应对该问题,可以在因果图上增加一个selection的变量,代表在选择那些mediator时,可能的bias,从而扩展分析框架
任何因果分析,都需要从关于数据生成过程的一组假设开始。虽然我们的模型假设是对实际潜在现象的过度简化。但该例子说明,
最后关于因果推断,推荐三本入门书:
写给普通人的因果逻辑入门书-《别拿相关当因果!》
好书推荐-《结果与原因的经济学》极简因果推断教程
从相关性到因果性-读《The book of why》
如果三本书中,找出最适合入门的一本,又相对全面的一本,那是第一本
更多阅读
樱花,气候,相关性与因果性
将因果思维融入机器学习,实现信息处理的自动化
速读悖论,兼谈因果推断的重要性
您可能也对以下帖子感兴趣
{{{title}}}
文章有问题?点此查看未经处理的缓存