倾向得分匹配(PSM)中的匹配变量选择.docxVIP

倾向得分匹配(PSM)中的匹配变量选择.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

倾向得分匹配(PSM)中的匹配变量选择

一、倾向得分匹配与匹配变量的内在关联

(一)PSM的核心逻辑与匹配变量的功能定位

倾向得分匹配(PropensityScoreMatching,PSM)是因果推断中常用的统计方法,其核心目标是通过模拟随机实验环境,消除观测数据中处理组与控制组因协变量差异导致的选择偏差,从而更准确地估计处理效应。简单来说,PSM的运作逻辑可以概括为:首先基于观测到的协变量,构建一个“倾向得分”(即个体接受处理的概率);然后根据倾向得分的相似性,为每个处理组个体匹配一个或多个特征相近的控制组个体,使得匹配后的两组在协变量分布上尽可能一致,最终通过比较匹配样本的结果变量差异来估计处理效应。

在这一过程中,匹配变量(即用于计算倾向得分的协变量)扮演着“基石”角色。它们既是倾向得分模型的输入,也是平衡两组差异的关键依据。可以说,匹配变量的选择直接决定了倾向得分的质量——如果变量选择合理,倾向得分能有效捕捉处理分配的影响因素,匹配后的样本就能最大程度模拟随机实验;反之,若变量选择不当,倾向得分可能无法准确反映处理分配的真实机制,匹配结果将偏离因果推断的目标。

(二)匹配变量选择对PSM结果的决定性影响

匹配变量选择的重要性,可通过两个极端情况来理解:若遗漏关键变量,倾向得分模型将无法控制这些变量对处理分配和结果变量的共同影响,导致匹配后的两组仍存在系统性差异,最终处理效应估计值会被“污染”(即产生混杂偏差);若引入无关变量,虽然不会直接导致偏差,但可能增加倾向得分模型的噪声,降低模型的预测精度,甚至因变量间多重共线性问题,使得倾向得分的估计不稳定,最终影响匹配效率和结果的可靠性。

举个具体例子:假设我们要研究“某新型教学方法对学生成绩的影响”,处理变量是“是否采用新教学方法”,结果变量是“期末成绩”。若忽略“学生初始学习能力”这一关键变量(它既影响是否被分配到新教学组,又直接影响期末成绩),匹配后的两组可能在初始能力上仍存在显著差异,此时即使新教学方法本身无效果,也可能因初始能力差异导致成绩差异被错误归因于教学方法。反之,若错误地将“学生每周运动时长”(与处理分配和成绩均无关联)纳入匹配变量,虽然不会直接导致偏差,但会增加倾向得分模型的复杂度,可能使模型过度拟合,反而降低匹配的准确性。

二、匹配变量选择的理论依据与实践原则

(一)因果推断框架下的变量分类与筛选标准

要科学选择匹配变量,需先明确不同变量在因果关系中的角色。根据潜在结果框架和因果图(DAG)理论,变量可分为以下几类,每类变量的处理方式截然不同:

混杂变量(Confounder):同时影响处理分配(是否接受处理)和结果变量的变量,是匹配变量选择的核心。例如,在研究“吸烟对肺癌的影响”中,年龄是混杂变量——年龄越大,越可能有长期吸烟史(影响处理分配),同时年龄本身是肺癌的风险因素(影响结果)。若不控制年龄,吸烟对肺癌的真实效应会被高估或低估。因此,所有已知的混杂变量必须被纳入匹配变量集合。

中介变量(Mediator):处理变量通过中介变量影响结果变量的中间变量。例如,在“教育水平对收入的影响”研究中,职业选择是中介变量——教育水平通过影响职业类型(如进入高收入行业)进而影响收入。若将职业纳入匹配变量,相当于“阻断”了教育通过职业影响收入的路径,会低估教育对收入的总效应。因此,中介变量通常不应被纳入匹配变量。

对撞变量(Collider):同时受处理变量和结果变量影响的变量。例如,在“收入水平对健康的影响”研究中,“是否参加高端体检”可能是一个对撞变量——高收入者更可能参加高端体检(受处理变量影响),健康状况好的人也更可能参加体检(受结果变量影响)。若将“是否参加高端体检”纳入匹配变量,会人为制造处理变量与结果变量之间的虚假关联(即“对撞偏倚”),因此对撞变量应严格排除。

无关变量(IrrelevantVariable):与处理分配和结果变量均无关联的变量。如前所述,这类变量的加入不会改善匹配效果,反而可能干扰倾向得分模型的稳定性,因此应尽量剔除。

(二)数据驱动与理论驱动的双重考量

匹配变量的选择并非单纯的统计问题,而是需要结合理论逻辑与数据特征的综合决策过程。

从理论驱动角度看,研究者需基于已有的因果理论或领域知识,明确研究问题的因果机制,识别可能的混杂变量。例如,在公共政策评估中,若研究“某扶贫政策对家庭收入的影响”,理论上应考虑家庭劳动力数量(影响是否被纳入政策覆盖范围,也影响收入)、所在地区经济水平(影响政策分配,也影响收入增长潜力)等变量。若缺乏理论指导,仅依赖数据挖掘,可能遗漏关键混杂变量,或错误包含中介变量、对撞变量。

从数据驱动角度看,需关注变量的可观测性、测量质量和统计特性。例如,理论上重要的混杂变量(如“家庭社会资本”)若在数

文档评论(0)

杜家小钰 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档