刘雯洋,复旦大学管理学院应用统计专业2022级硕士。
今天和大家分享的是基于潜在结果框架三大假设的因果推断方法,我们将结合2021年的一篇因果推断综述文章 A survey on causal inference 进行介绍,并在此基础上进行一定的分析和补充。
(资料图片仅供参考)
尽管相关关系和因果关系是两个不同的概念,但在日常语言中,二者常常被混用。因果关系指结果变量以某种形式依赖于原因变量,而相关关系是指两个变量呈现同步增加或同步减少的趋势(Altman et al., 2015)。因果推论是基于结果发生条件得出因果关系结论的过程。因果推论和相关性推论的主要区别在于前者分析当原因改变时结果变量的响应(Pearl, 2009)。
相关关系并不意味着因果关系。例如,一项研究表明,每天吃早餐的女孩往往比不吃早餐的女孩更瘦,因此得出结论:吃早餐可以帮助减肥。但事实上,这两件事可能只是相关而不是因果关系。也许每天吃早餐的女孩有更好的生活方式,例如经常锻炼、定期睡觉和健康饮食,最终使她们变得轻盈。在这种情况下,更好的生活方式是吃早餐和轻盈的共同原因,因此我们也可以将其视为吃早餐和轻盈之间因果关系的混杂因素。
学习因果关系是一个极具挑战性的问题。推断因果关系的最有效方法是进行随机对照试验,该试验将参与者随机分配到实验组或对照组,对不同组实施不同的干预,以对照效果的不同。然而,很多情况下随机对照实验成本高昂,难以实现。同时,随机对照试验仅关注样本的平均值,不能解释作用机制也不涉及个别受试者。此外,在大多数随机对照试验中还需要考虑伦理问题,这在很大程度上限制了它的应用。
与随机对照试验相比,我们更容易获取到观察数据,如果能用观察数据代替随机对照试验进行分析,将大大降低因果推断的成本。观察数据是由研究者简单观察受试者而获得的,不需要干扰受试者,可以规避随机对照实验的风险。在观察数据中,我们可以找到受试者的行为、结果和已发生的信息,但不能弄清楚他们采取特定行动的原因。对于观察数据,核心问题是如何获得对称结果。例如,我们想回答“如果这个患者接受了不同的药物,他的结果会不同吗?”。回答这样的反事实问题并不容易,原因有两个:一是我们只能观察事实结果,而不能观察如果选择不同治疗方案所潜在发生的反事实结果。二是治疗方案通常在观察性数据中不是随机分配的,不同治疗的人群分布可能不相同。
为了解决观察性数据的因果推断中的这些问题,研究人员开发了各种框架,其中一个重要的框架为潜在结果框架(Rubin, 1974;Splawa-Neyman et al., 1990)。潜在结果框架也被称为奈曼-鲁宾潜在结果或鲁宾因果模型。在上面我们提到的例子中,如果一个女孩每天正常吃早餐,她会有一个特定的体重,而如果她不正常吃早餐,她会有一个不同的体重。为了衡量正常吃早餐对一个女孩的因果效应,我们需要比较同一人在两种情况下的结果。显然,我们不可能同时看到两个潜在的结果,其中一个潜在的结果总是缺失的。潜在结果框架的目的是估计这种潜在结果,然后计算出处理效果。因此,处理效果的估计是潜在结果框架下因果推断的核心问题之一。本文将对基于潜在结果框架的因果推断方法进行全面的介绍。
为了叙述方便,我们先描述一个因果推断问题。一般来说,因果推断的任务是估计如果应用了一种处理,结果的变化。例如,假设有两种可以应用于病人的治疗方法。当对患者群体应用A药时,治愈率为70%,而对同一患者群应用B药时,治愈率为90%。治愈率的变化是处理(即本例中的药物)对治愈率所产生的影响。
1、单位 :单位是治疗效果研究中的最小研究对象,前述药物例子中一个患者就是一个单位。在潜在结果框架下,不同时间点的研究对象是不同的单位(Imbens et al., 2015)。
2、处理 :处理指的是对一个单位应用的行动,前述药物例子中的处理为应用药物A和应用药物B。大多数文献考虑的是二元处理,记应用处理
的单位组为处理组,未应用处理的 的单位组为控制组。3、结果
潜在结果:对于每个单位-处理对来说,该处理在该单位上应用时的结果就是潜在结果。处理
的潜在结果表示为 (Imbens et al., 2015)。观察结果:实际应用的处理结果。观察到的结果也被称为事实性结果,我们用
来表示它。潜在结果和观察结果之间的关系是: 其中 是实际应用的处理。反事实的结果:如果该单位采取了另一种治疗的结果。由于一个单位只能采取一种治疗方法,所以只有一种潜在的结果可以被观察到,其余未观察到的潜在结果就是反事实结果。在多种治疗的情况下,用
表示治疗 的反事实结果。4、变量
处理前变量:处理前变量是不受处理影响的变量,也称为背景变量。它们可以是病人的人口统计学、病史等。使用
表示治疗前变量。在下面的章节中,除非另有说明,变量指的是治疗前变量。处理后变量:处理后的变量是指受处理影响的变量,如前述药物例子中服药后的化验结果。
5、处理效果
处理效果可以在整体、处理、子群和个体层面进行测量。为了使这些定义更加清晰,我们在此将处理效果定义为二元的,它可以通过比较潜在的结果扩展到多元处理。
平均处理效果:在整体水平上,处理效果被称为平均处理效果(ATE),其定义为:
其中,
和 分别为整个人群的潜在处理结果和控制结果。对于处理,处理效果称为对处理组的平均处理效果(ATT),其定义为
其中,
和
分别为试验组的处理潜在结果和控制潜在结果。在子群层面上,处理效果称为条件平均处理效果(CATE),定义为:
其中,
和 分别为 子群的处理组和控制组的潜在结果。CATE是一种常见的处理效果测量。一般情况下,不同子群的处理效果有所不同,故也被称为异质性处理效果。在个体层面上,治疗效果称为个体治疗效应(ITE),单位
的ITE定义为:其中,
和 分别为单元 的潜在处理结果和控制结果。对于因果推断,我们的目标是从观察数据中估计处理效果,即给定观测数据集
,其中 为 在数据集中的总单位数,因果推理任务的目标是估计上述定义的处理效果。1、样本-策略值稳定性假设(SUTVA)
任何单位的潜在结果不随分配给其他单位的处理方式而变化,即单元之间不存在相互作用,一个患者的结果不会影响其他患者的结果,并且对于每个单位,每个处理级别没有导致不同的潜在结果的多个的形式或版本。
2、可忽略性假设
给定背景变量
,处理的分配 独立于潜在结果,即 。如果两个人的特征
相同,无论他们实际应用哪一治疗,他们的潜在结果是相同的,即结果和治疗独立。具有相同特征 的人群,每个人接受到哪种处理是完全随机的,概率都相同,不存在某个在 之外的隐变量,同时影响结果和处理,使得处理和结果相关。3、正向假设
对于
的任何值,处理的分配都不是确定性的:也就是说, 对于某个特征X下的人群,每个人都有概率被施加任何处理,并且该人群中存在所有的处理。如果对于X的某些值来说,处理分配是确定的;那么对于这些值来说,至少有一个处理的结果永远不可能被观察到。在这种情况下,估计处理效果将是不可能的,也是没有意义的。
混淆变量是指既和处理相关又和结果相关的变量。为了能够得到ATE的估计值,可以简单地估计
和
,然后做差值即可得到ATE。但是由于混淆变量的存在,这样的计算会存在很大的偏差,这种偏差又称为选择性偏差。假设现在有两种药A和B,我们希望看看每种药的效果,如果直接看总的治愈率,A是83%,B是78%,A药的效果比B好。但是如果根据用户的年龄划分,年轻病人中,A的治愈率是87%,B是92%;年老病人中,A的治愈率是69%,B是73%。这么看,B药的效果反而比A好,这个问题又被称为辛普森悖论(Blyth, 1972;Good et al., 1987)。表1 辛普森悖论实例
这个悖论是由混淆因素造成的,当比较整个组的康复率时,服用A药的人大部分是年轻人,而年轻人身体素质更好,在同等治疗下也会比老年人治愈率高,表中整体治愈率的比较未能消除混淆变量年龄对康复率的影响。避免混淆变量导致的选择偏差的方法通常有2种。一种方法是匹配,施加了不同治疗的人,需要经过匹配之后再做比较,比如选择的都是年轻人,这样就是模拟控制变量的做法。另一种方法是元学习方法,先基于观察数据训练模型,得到有偏的结果,后续对结果进行纠正。
1、再加权的方法
由于混杂因素的存在,处理组和控制组的协变量分布是不同的。这就导致了2.1.3节所述的选择性偏差问题。换句话说,处理的分配与观察数据中的协变量相关。样本再加权方法是克服选择偏倚的有效方法。通过给观察数据中的每个单位分配适当的权重,就可以建立一个伪人总体,在这个伪总体中,处理组和控制组的分布是一致的。
在样本再加权方法中,一个关键的概念是平衡得分。平衡得分
是 满足 的函数(Imbens et al., 2015),其中 是处理分配, 是背景变量。平衡得分有多种设计,显然由于可忽略性的假设,最简单的平衡得分设计是 。此外,倾向性得分也是平衡得分的一个特例,基于倾向得分来构造平衡得分是最常见的再加权方法。倾向得分被定义为给定背景变量的处理分配条件概率:倾向得分表示在给定观察到的协变量的情况下,一个单位被分配到特定处理的概率, 倾向得分可以用来平衡处理组和控制组的协变量,从而通过匹配、分层(子群组)、回归调整等方法减少偏差(D"Agostino Jr, 1998)。最基本的基于倾向得分的平衡得分为逆倾向加权(IPW)(Rosenbaum, 1987;Rosenbaum et al., 1983),也被称为处理加权的逆概率,它为每个样本分配一个权重r:
其中
为治疗分配(W = 1为处理组;W = 0为控制组), 为前文中定义的倾向得分,对样本重新加权后,可以计算修正的ATE估计量(Imbens, 2004)。IPW的主要思想是,观测样本越倾向选择这个处理,那么说明这个处理对该样本可能获得更好的处理效果,所以取逆得到的权重来平衡这个处理效果。然而在实践中,IPW估计的正确性高度依赖于倾向得分估计的正确性(Imai et al., 2014)。为此, Robins et al. (1994)提出了双稳健(DR)估计,也被称为增强的IPW。DR估计将倾向性评分加权与结果回归相结合,确保了估计量在倾向得分和结果回归中一个模型错误时具有鲁棒性(Bang et al., 2005;Robins et al., 2007,1994)。另一种方法是改进倾向分数的估计,在IPW估计器中,倾向得分既是被治疗的概率,又是协变量平衡得分, Imai et al. (2014)提出协变量平衡倾向得分(CBPS)来利用这种双重特性。CBPS直接从估计的参数化倾向得分中构建了协变量平衡得分,从而提高了对倾向得分模型的错误指定的稳健性。CBPS的一个扩展是协变量平衡广义倾向得分(CBGPS)(Fong et al., 2018),它可以处理连续值的处理。
上述的样本加权方法可以在将观测到样本其他变量均视为混杂因素的意义上实现平衡。然而在实际情况中,并非所有观察到的变量都是混杂因素,还可能存在只对结果有影响的调整变量以及无关的变量。对调整变量进行调整,是不能减少偏差的,只是有助于减少方差(Bloniarz et al., 2016;Sauer et al., 2013),而调整无关的变量则会导致过拟合现象。为此,Kuang et al. (2017b)提出了D
VD算法来区分混杂变量和调整变量,同时消除了无关变量。然而在实践中,对于观测变量之间的相互作用的先验知识很少,数据通常是高维和有噪声的。为了解决这一问题,Kuang et al. (2017a)提出了差异化混杂平衡算法(DCB)来选择和区分混杂因子,最后达到平衡分布的目的。2、分层方法
分层方法也被称为子群分类或分块方法,是一种调整混杂因素的代表性方法。分层的思想是通过将整个观察数据分割成同质的子群来调整由处理组和控制组之间的差异导致的偏差。理想情况下,在每个子群中,处理组和控制组在对协变量的某些测量下是相似的,因此,同一子群中的单位可以看作是随机对照试验下的数据采样。可以通过随机对照试验数据的方法来计算CATE即每个子群的治疗效果,通过CATE,可以得到其他治疗效果,以ATE为例,如果我们将数据集分为
个子组,ATE的估计为:其中,
和 分别为第 个子群的处理组结果和控制组结果的平均值, 是第 块中单位数占总单位数的比例。与ATE的差分估计相比,分层方法有效地降低了ATE估计的偏差。分层方法的关键在于如何创建子群。等频率方法(Rosenbaum et al., 1983)是创建区块的一个常见策略。等频率方法按样本的出现概率如倾向得分分割组,使协变量在每个子组中具有相同的出现概率即倾向得分。ATE是由每个区块的CATE的加权平均数来估计的,权重是这个区块中单位的分数。然而,这种方法由于在倾向得分很高或很低的区块中,处理组和控制组之间没有足够的重叠,因此存在着较高的方差。为了减少方差,Hullsiek et al. (2002)根据倾向得分划分子群,通过子群特定治疗效果的逆方差重新加权。虽然这种方法减少了等频法的方差,但它不可避免地增加了估计偏差。上述的分层方法都是根据治疗前的变量来分割区块,在一些现实研究中,可能需要根据治疗后变量进行分割(Frangakis et al., 2002)。
3、 匹配方法
如前所述,反事实结果缺失和混杂因素偏差是处理效果估计的两个主要挑战。基于匹配的方法提供了一种估计反事实结果的方法,同时该方法也减少了混杂因素带来的估计偏差。因为同一个单位要么在处理组要么在控制组,对于在处理组的单元,可以在控制组中找到相似特征的群体,用相似群体的结果估计原始单元在控制组的潜在结果,即匹配法通过以下方法估计第
个单位的潜在结果(Abadie et al., 2004):其中,
和 是估计的控制和处理结果, 是相反处理组中的单位 的配对近邻组合(Austin, 2011), 表示组合中个体数目。对匹配样本的分析类似于随机对照试验,可以直接比较在匹配样本内的处理组和控制组之间的结果。在随机对照试验中,两个组之间的协变量分布是相似的。因此,在使用观察数据时,匹配可以用来减少或消除混淆因子对处理效果的估计(Austin, 2011)。在匹配时,可以采用各种距离来比较单位之间的紧密度(Gu et al., 1993),如广泛使用的欧氏距离(Rubin, 1973)和马氏距离(Rubin et al., 2000)。此外,由于前文中的倾向得分可以表示单位的原始协变量,还可以使用倾向得分来度量两个单元的相似性,单位
和单位 的倾向评分分别为 和 ,两个单元之间的相似性可以直接计算为:,
。在此基础上,基于线性倾向评分的距离度量将相似性定义为 ,这种改进版本可以有效地减少偏差(Stuart, 2010)。以上匹配标准只考虑了背景变量的信息,另外的一些映射方法将结果信息也考虑进来,这样映射空间的信息更加丰富。一个具有代表性的指标是预后评分(Hansen, 2008),即控制结果的估计。然而,预后评分的表现依赖于相关变量和控制结果之间的关系建模,并且预后评分只考虑了控制结果,忽略了处理结果。Chang et al. (2017)提出的基于Hilbert-Schmidt独立准则的最近邻匹配(HSIC-NNM)可以克服这一问题。与上面方法不同的是,随机最近邻匹配(RNNM)(Li et al., 2016)采用多个随机线性投影作为映射函数,然后对每一个变换子空间中通过最近邻匹配得到相应的处理效果,最后取这些效果的中位数作为最后的效果。在JL引理的支持下,RNNM综合了几个线性随机变换的策略估计效果,可以适当地降低估计偏差。
在定义了相似性度量之后,下一步是寻找配对单元集合。Caliendo et al. (2008)将现有的匹配算法被分为四种基本方法,包括最近邻匹配、卡尺匹配、分层匹配和核匹配,感兴趣的读者可以阅读论文获取更多信息。
4、树方法
因果推理的另一种流行方法是基于决策树学习。决策树是一种非参数监督学习方法,用于分类和回归。其目标是创建一个模型,通过学习从数据中推断出的简单决策规则来预测目标变量的值。Athey et al. (2016)提供了一种基于CART决策树的数据驱动方法,将数据划分为治疗效果大小不同的子群体估计因果效应的异质性。即使有许多与样本大小相关的相关变量,并且没有“稀疏性”假设的情况下,这种方法也能为策略效果建立有效的置信区间。这种方法在两个方面与传统的CART不同。首先,它侧重于估计条件平均治疗效果,而不是像传统CART那样直接预测结果。第二,使用不同的样本来构建子群并估计每个子群体的效果,这被称为“诚实”估计。类似的,BART模型和随机森林模型也可以用于估计平均处理效果(Hill, 2011;Wager et al., 2018)。这种基于树状结构的框架对模型的错误指定是稳健的,此类方法没有参数,非常灵活,只需最少的人工调整。
相关的因果推断方向还有很多,比如表示学习方法,多任务学习法,元学习方法等,感兴趣的读者可以阅读论文原文了解更多信息。
因果推理为揭示现实问题中的因果关系提供了有效途径,长期以来一直是一个吸引人的研究课题。在本文中,我们首先介绍了潜在结果框架的基本概念和三大假设,总结了因果推断的核心问题即如何处理混淆变量带来的选择性偏差。随后对潜在结果框架下基于三大假设的因果推断方法进行了回顾,帮助读者了解因果推断领域的发展现状。其中样本再加权方法通过调整样本权重,建立伪总体,在这个伪总体中,处理组和控制组的分布是一致的,从而修正处理效果的估计;分层方法是通过将整个观察数据分割成同质的子群来调整由处理组和控制组之间的差异导致的偏差;匹配方法是给处理组的每个单位,在控制组中找到相似特征的群体,用相似群体的潜在结果估计反事实结果;树方法则可以将数据无监督地分为不同子群,估计树结构划分的子群体效果从而得到其他效果的估计。在论文中,作者还对放宽假设的推断方法进行了详细的总结和讨论,感兴趣的读者可以阅读论文了解更多信息。
上一篇 : 摒弃“守摊子”思想 强化“谋发展”思维
下一篇 : 最后一页