倾向得分匹配法的样本匹配偏差修正.docxVIP

下载本文档

0
0
约7.09千字
约 16页
2026-01-06 发布于江苏
举报
版权申诉

倾向得分匹配法的样本匹配偏差修正.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

倾向得分匹配法的样本匹配偏差修正

一、倾向得分匹配法的基础逻辑与样本匹配偏差的核心问题

（一）倾向得分匹配法的核心逻辑与操作框架

在因果推断的实践中，“反事实”是绕不开的核心——我们需要知道处理组个体“未接受处理”的结果（或控制组个体“接受处理”的结果），才能准确估计处理效应。但现实中，反事实结果无法直接观测，因此需要通过“匹配”找到与处理组个体“相似”的控制组个体，用其结果替代反事实。然而，当协变量维度较高（比如同时考虑年龄、收入、教育水平等多个变量）时，直接匹配所有协变量会陷入“维度灾难”——随着协变量数量增加，找到完全匹配个体的概率趋近于0。

倾向得分匹配法（PropensityScoreMatching,PSM）的出现，正是为了解决高维协变量的匹配难题。其核心逻辑是将高维协变量压缩为一维倾向得分（即个体在给定协变量下接受处理的概率，记为(e(X)=P(T=1|X))，其中(T)为处理状态，(X)为协变量）。根据“平衡得分”的性质，若两个个体的倾向得分相同，即使协变量不同，其协变量分布也会趋于平衡——这意味着，通过倾向得分匹配，能以“一维换多维”的方式解决维度灾难，同时保持协变量的平衡。

PSM的操作框架可分为五步：

协变量选择：筛选同时影响处理分配（(T)）和结果变量（(Y)）的“混杂变量”（比如研究课外辅导对成绩的影响，混杂变量包括家庭收入、初中成绩等）；

倾向得分估计：用Logit或Probit模型，以协变量(X)为自变量、处理状态(T)为因变量，估计每个个体的倾向得分；

匹配执行：根据倾向得分将处理组与控制组个体配对（常用方法包括最近邻匹配、卡尺匹配、核匹配等）；

平衡检验：验证匹配后处理组与控制组的协变量分布是否平衡；

效应估计：计算处理组（或控制组）的平均处理效应（比如ATT，即处理组的平均处理效应）。

（二）样本匹配偏差的定义与对因果推断的潜在危害

尽管PSM能缓解维度灾难，但样本匹配偏差仍是实践中常见的问题——指匹配后处理组与控制组的协变量分布仍未达到平衡，或匹配过程中因模型设定、样本选择等问题导致处理效应估计偏离真实值的系统误差。

匹配偏差的具体表现有三类：

协变量分布失衡：匹配后某协变量的均值（或方差）在处理组与控制组仍有显著差异（比如处理组平均年龄30岁，控制组25岁）；

共同支撑域不足：处理组与控制组的倾向得分分布无重叠（比如处理组的倾向得分均0.6，而控制组均0.5），导致无法找到“相似”的控制组个体；

模型设定误差：倾向得分模型遗漏重要协变量（比如忽略家庭收入对处理分配的影响）或错误设定函数形式（比如用线性模型拟合非线性关系），导致倾向得分估计不准。

匹配偏差的危害直接且深远：

处理效应偏误：若协变量未平衡，处理效应会混淆“处理的真实影响”与“协变量差异的影响”（比如处理组本身成绩更好，即使不参加辅导，成绩也会更高）；

结果不可靠：偏差会导致处理效应估计值偏离真实值，甚至符号相反（比如真实效应为正，偏差导致估计为负）；

政策误导：基于偏误结果制定的政策（比如推广无效的辅导program）会造成资源浪费或负面后果。

二、样本匹配偏差的来源与识别框架

（一）样本匹配偏差的三类核心来源

匹配偏差的产生并非偶然，而是源于PSM操作中的多个环节：

倾向得分估计偏差

倾向得分是匹配的“地基”，若估计错误，后续匹配必然失衡。常见问题包括：

协变量选择错误：遗漏混杂变量（比如研究辅导效果时忽略父母教育水平）、包含中介变量（比如辅导中的作业量，它是辅导的结果而非混杂变量）或无关变量（比如学生的星座）；

模型形式错误：用线性模型拟合非线性关系（比如家庭收入与参加辅导的概率先升后降，但模型未加二次项）；

估计方法偏差：小样本下Logit模型的参数估计存在偏差，或过度拟合（比如协变量数量超过样本量的10%）。

匹配策略选择偏差

即使倾向得分估计准确，匹配方法或参数选择不当也会导致偏差：

最近邻匹配的k值过小：k=1（一对一匹配）时，若控制组中最近邻个体的倾向得分与处理组差异较大，会引入偏差；

卡尺宽度过大：设定过宽的卡尺（比如0.3倍标准差）会匹配距离较远的个体，导致协变量失衡；

核匹配的带宽不当：带宽过大（比如0.2）会平滑过度，掩盖协变量差异；带宽过小（比如0.01）会导致方差过大。

共同支撑域不足的偏差

共同支撑域是处理组与控制组倾向得分的重叠区间。若重叠不足（比如处理组的倾向得分集中在0.7-0.9，控制组集中在0.1-0.5），会导致两类问题：

无法匹配：处理组中倾向得分0.5的个体找不到控制组匹配，只能“强行”匹配距离较远的个体，引入偏差；

外推错误：将结果外推到非重叠区域（比如用控制组中倾向得分0.5的个体推断处理组中0.7的个体的反事实结果），导致偏差。

（二）样本匹配偏差的识别方法与平衡检验

您可能关注的文档

文档评论（0）

level来福儿 + 关注: 实名认证

文档贡献者

二级计算机、经济专业技术资格证持证人

好好学习

咨询Ta 进入空间

领域认证该用户于2025年09月05日上传了二级计算机、经济专业技术资格证

1亿VIP精品文档

更多 >

倾向得分匹配法的样本匹配偏差修正.docxVIP