倾向得分匹配法的样本匹配偏差修正.docxVIP

倾向得分匹配法的样本匹配偏差修正.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

倾向得分匹配法的样本匹配偏差修正

一、倾向得分匹配法的基础逻辑与样本匹配偏差的核心问题

(一)倾向得分匹配法的核心逻辑与操作框架

在因果推断的实践中,“反事实”是绕不开的核心——我们需要知道处理组个体“未接受处理”的结果(或控制组个体“接受处理”的结果),才能准确估计处理效应。但现实中,反事实结果无法直接观测,因此需要通过“匹配”找到与处理组个体“相似”的控制组个体,用其结果替代反事实。然而,当协变量维度较高(比如同时考虑年龄、收入、教育水平等多个变量)时,直接匹配所有协变量会陷入“维度灾难”——随着协变量数量增加,找到完全匹配个体的概率趋近于0。

倾向得分匹配法(PropensityScoreMatching,PSM)的出现,正是为了解决高维协变量的匹配难题。其核心逻辑是将高维协变量压缩为一维倾向得分(即个体在给定协变量下接受处理的概率,记为(e(X)=P(T=1|X)),其中(T)为处理状态,(X)为协变量)。根据“平衡得分”的性质,若两个个体的倾向得分相同,即使协变量不同,其协变量分布也会趋于平衡——这意味着,通过倾向得分匹配,能以“一维换多维”的方式解决维度灾难,同时保持协变量的平衡。

PSM的操作框架可分为五步:

协变量选择:筛选同时影响处理分配((T))和结果变量((Y))的“混杂变量”(比如研究课外辅导对成绩的影响,混杂变量包括家庭收入、初中成绩等);

倾向得分估计:用Logit或Probit模型,以协变量(X)为自变量、处理状态(T)为因变量,估计每个个体的倾向得分;

匹配执行:根据倾向得分将处理组与控制组个体配对(常用方法包括最近邻匹配、卡尺匹配、核匹配等);

平衡检验:验证匹配后处理组与控制组的协变量分布是否平衡;

效应估计:计算处理组(或控制组)的平均处理效应(比如ATT,即处理组的平均处理效应)。

(二)样本匹配偏差的定义与对因果推断的潜在危害

尽管PSM能缓解维度灾难,但样本匹配偏差仍是实践中常见的问题——指匹配后处理组与控制组的协变量分布仍未达到平衡,或匹配过程中因模型设定、样本选择等问题导致处理效应估计偏离真实值的系统误差。

匹配偏差的具体表现有三类:

协变量分布失衡:匹配后某协变量的均值(或方差)在处理组与控制组仍有显著差异(比如处理组平均年龄30岁,控制组25岁);

共同支撑域不足:处理组与控制组的倾向得分分布无重叠(比如处理组的倾向得分均0.6,而控制组均0.5),导致无法找到“相似”的控制组个体;

模型设定误差:倾向得分模型遗漏重要协变量(比如忽略家庭收入对处理分配的影响)或错误设定函数形式(比如用线性模型拟合非线性关系),导致倾向得分估计不准。

匹配偏差的危害直接且深远:

处理效应偏误:若协变量未平衡,处理效应会混淆“处理的真实影响”与“协变量差异的影响”(比如处理组本身成绩更好,即使不参加辅导,成绩也会更高);

结果不可靠:偏差会导致处理效应估计值偏离真实值,甚至符号相反(比如真实效应为正,偏差导致估计为负);

政策误导:基于偏误结果制定的政策(比如推广无效的辅导program)会造成资源浪费或负面后果。

二、样本匹配偏差的来源与识别框架

(一)样本匹配偏差的三类核心来源

匹配偏差的产生并非偶然,而是源于PSM操作中的多个环节:

倾向得分估计偏差

倾向得分是匹配的“地基”,若估计错误,后续匹配必然失衡。常见问题包括:

协变量选择错误:遗漏混杂变量(比如研究辅导效果时忽略父母教育水平)、包含中介变量(比如辅导中的作业量,它是辅导的结果而非混杂变量)或无关变量(比如学生的星座);

模型形式错误:用线性模型拟合非线性关系(比如家庭收入与参加辅导的概率先升后降,但模型未加二次项);

估计方法偏差:小样本下Logit模型的参数估计存在偏差,或过度拟合(比如协变量数量超过样本量的10%)。

匹配策略选择偏差

即使倾向得分估计准确,匹配方法或参数选择不当也会导致偏差:

最近邻匹配的k值过小:k=1(一对一匹配)时,若控制组中最近邻个体的倾向得分与处理组差异较大,会引入偏差;

卡尺宽度过大:设定过宽的卡尺(比如0.3倍标准差)会匹配距离较远的个体,导致协变量失衡;

核匹配的带宽不当:带宽过大(比如0.2)会平滑过度,掩盖协变量差异;带宽过小(比如0.01)会导致方差过大。

共同支撑域不足的偏差

共同支撑域是处理组与控制组倾向得分的重叠区间。若重叠不足(比如处理组的倾向得分集中在0.7-0.9,控制组集中在0.1-0.5),会导致两类问题:

无法匹配:处理组中倾向得分0.5的个体找不到控制组匹配,只能“强行”匹配距离较远的个体,引入偏差;

外推错误:将结果外推到非重叠区域(比如用控制组中倾向得分0.5的个体推断处理组中0.7的个体的反事实结果),导致偏差。

(二)样本匹配偏差的识别方法与平衡检验

您可能关注的文档

文档评论(0)

level来福儿 + 关注
实名认证
文档贡献者

二级计算机、经济专业技术资格证持证人

好好学习

领域认证该用户于2025年09月05日上传了二级计算机、经济专业技术资格证

1亿VIP精品文档

相关文档