因果推理导论第2课 因果推断假设
- 前言
- 一、假设
- 1、 Ignorability / Exchangeability
- 2、条件可交换
- 二、估计
前言
第一节课通过一些例子说明了为什么要做因果推断,以及通过控制混杂因素计算因果效应;这一节课将围绕为何控制混杂因素计算因果效应这一方法成立,讲述其涉及到的一些假设,与基于假设后因果公式上的推导.
注:小写字符代表单个目标,大写字符代表变量
一、假设
案例说明:定义 Υ ( 1 ) \Upsilon (1) Υ(1)为接受治疗T=1的潜在效果, Υ ( 0 ) \Upsilon (0) Υ(0)为不接受治疗T=0的潜在效果.
先回忆一下计算因果效应其公式 E [ Υ ( 1 ) − Υ ( 0 ) ] = E [ Υ ( 1 ) ] − E [ Υ ( 0 ) ] , 线性期望展开 E[\Upsilon (1)-\Upsilon (0)]=E[\Upsilon (1)]-E[\Upsilon (0)],线性期望展开 E[Υ(1)−Υ(0)]=E[Υ(1)]−E[Υ(0)],线性期望展开,我们知道无法直接计算的原因是我们无法得知单个个体同时接受不同治疗方法T(除非时间回溯,否则前后接受其初始条件已变化),得到其潜在效果.而机器学习没有这个问题是因为其目标是预测观察到的结果.
1、 Ignorability / Exchangeability
因此我们从能获取的信息入手,首先观测里我们知道具体的治疗方法T与其效果,那么能不能把治疗方法作为条件引入?若治疗方法是随机分配的,那么这个治疗条件是不是就不影响其潜在效果的计算了,对的,因此给出忽略性假设,当该假设成立时,下面等式成立.
E [ Υ ( 1 ) ] − E [ Υ ( 0 ) ] ? = E [ Υ ( 1 ) ∣ T = 1 ] − E [ Υ ( 0 ) ∣ T = 0 ] = E [ Υ ∣ T = 1 ] − E [ Υ ∣ T = 0 ] E[\Upsilon (1)]-E[\Upsilon (0)] ?=E[\Upsilon (1)|T=1]-E[\Upsilon (0)|T=0]\\=E[\Upsilon |T=1]-E[\Upsilon |T=0] E[Υ(1)]−E[Υ(0)]?=E[Υ(1)∣T=1]−E[Υ(0)∣T=0]=E[Υ∣T=1]−E[Υ∣T=0]
该假设从因果图上理解,就是T条件没有混杂因素影响,其不同治疗方法的群体是可比较的,因此假设也叫可交换性假设
根据假设得到定义,如果一个因果量化可由纯粹的统计量化计算,那么它是可识别的.
当然第一节课也说到,不同治疗T群体的可比较性是比较不现实的(比如测试基因对糖尿病的因果作用,没有办法随机改变一个人的基因),因此它会收到混杂因素的影响.
2、条件可交换
有混杂因子X,这时公式变为 E [ ( Υ ( 1 ) − Υ ( 0 ) ∣ X ] = E [ Υ ( 1 ) ∣ X ] − E [ Υ ( 0 ) ∣ X ] ? = E [ Υ ( 1 ) ∣ T = 1 , X ] − E [ Υ ( 0 ) ∣ T = 0 , X ] = E [ Υ ∣ T = 1 , X ] − E [ Υ ∣ T = 0 , X ] E[(\Upsilon (1)-\Upsilon (0)|X]\\=E[\Upsilon (1)|X]-E[\Upsilon (0)|X] \\?=E[\Upsilon (1)|T=1,X]-E[\Upsilon (0)|T=0,X]\\=E[\Upsilon |T=1,X]-E[\Upsilon |T=0,X] E[(Υ(1)−Υ(0)∣X]=E[Υ(1)∣X]−E[Υ(0)∣X]?=E[Υ(1)∣T=1,X]−E[Υ(0)∣T=0,X]=E[Υ∣T=1,X]−E[Υ∣T=0,X]
当我们控制住X时,其群体又是可比较的了,其因果图如下所示,满足这个条件的时候其等式成立.这个条件即为假设2:条件可交换,也叫无混杂因子假设.这样最后的因果量化可以由上面式子在X的边际期望得到 E [ Υ ( 1 ) ] − E [ Υ ( 0 ) ] = E X [ E [ Υ ∣ T = 1 , X ] − E [ Υ ∣ T = 0 , X ] ] E[\Upsilon (1)]-E[\Upsilon (0)]=E_X[E[\Upsilon |T=1,X]-E[\Upsilon |T=0,X]] E[Υ(1)]−E[Υ(0)]=EX[E[Υ∣T=1,X]−E[Υ∣T=0,X]]
同样根据假设得定理调整式子,可以看到公式里面除了条件假设还有正值,一致性,无干扰假设,接下来再对后面几个假设做简要说明.
-
正值性:看我们公式是条件期望,那么回想一下贝叶斯公式,转换一下,那么下述假设就会成为分母,若假设不成立就会导致除以0出现,那么调整公式就不成立了.
-
无干扰性:是指单个目标的治疗不受其前后左右影响,就取决于自身的治疗策略
-
一致性:指我们观测到的 Υ \Upsilon Υ确实是由观测到的T 产生的,还记得这个转化不,如果一致性不成立,那么下面这个转化也不成立了,当然这个很难理解假设会不成立,举个例子,有狗无狗对情绪的影响,若实际实验中,狗狗给了幼犬和老年犬两个版本,那这个观测值就不是刚刚开始定义的有狗无狗的T了,这样观测到的结果也不是由T得到的了.
所有假设定义合并一下可得到完整额公式变化:
二、估计
理论已经证明完成,那么实际应用上是如何使用的呢?
前面我们已经将因果量化转为观测值上期望计算(概率估计),接下来就是估计了. 举一个例子,目标是看sodium这个药对血压的影响,其混杂因子是age,proteinuria,使用线性回归模型进行估计,其因果量化取均值得到;由于我们使用的是线性模型,其因果量化就等于其拟合的模型sodium的系数.