- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
倾向得分匹配法的样本匹配偏差修正
一、倾向得分匹配法的基础逻辑与样本匹配偏差的核心问题
(一)倾向得分匹配法的核心逻辑与操作框架
在因果推断的实践中,“反事实”是绕不开的核心——我们需要知道处理组个体“未接受处理”的结果(或控制组个体“接受处理”的结果),才能准确估计处理效应。但现实中,反事实结果无法直接观测,因此需要通过“匹配”找到与处理组个体“相似”的控制组个体,用其结果替代反事实。然而,当协变量维度较高(比如同时考虑年龄、收入、教育水平等多个变量)时,直接匹配所有协变量会陷入“维度灾难”——随着协变量数量增加,找到完全匹配个体的概率趋近于0。
倾向得分匹配法(PropensityScoreMatching,PSM)的出现,正是为了解决高维协变量的匹配难题。其核心逻辑是将高维协变量压缩为一维倾向得分(即个体在给定协变量下接受处理的概率,记为(e(X)=P(T=1|X)),其中(T)为处理状态,(X)为协变量)。根据“平衡得分”的性质,若两个个体的倾向得分相同,即使协变量不同,其协变量分布也会趋于平衡——这意味着,通过倾向得分匹配,能以“一维换多维”的方式解决维度灾难,同时保持协变量的平衡。
PSM的操作框架可分为五步:
协变量选择:筛选同时影响处理分配((T))和结果变量((Y))的“混杂变量”(比如研究课外辅导对成绩的影响,混杂变量包括家庭收入、初中成绩等);
倾向得分估计:用Logit或Probit模型,以协变量(X)为自变量、处理状态(T)为因变量,估计每个个体的倾向得分;
匹配执行:根据倾向得分将处理组与控制组个体配对(常用方法包括最近邻匹配、卡尺匹配、核匹配等);
平衡检验:验证匹配后处理组与控制组的协变量分布是否平衡;
效应估计:计算处理组(或控制组)的平均处理效应(比如ATT,即处理组的平均处理效应)。
(二)样本匹配偏差的定义与对因果推断的潜在危害
尽管PSM能缓解维度灾难,但样本匹配偏差仍是实践中常见的问题——指匹配后处理组与控制组的协变量分布仍未达到平衡,或匹配过程中因模型设定、样本选择等问题导致处理效应估计偏离真实值的系统误差。
匹配偏差的具体表现有三类:
协变量分布失衡:匹配后某协变量的均值(或方差)在处理组与控制组仍有显著差异(比如处理组平均年龄30岁,控制组25岁);
共同支撑域不足:处理组与控制组的倾向得分分布无重叠(比如处理组的倾向得分均0.6,而控制组均0.5),导致无法找到“相似”的控制组个体;
模型设定误差:倾向得分模型遗漏重要协变量(比如忽略家庭收入对处理分配的影响)或错误设定函数形式(比如用线性模型拟合非线性关系),导致倾向得分估计不准。
匹配偏差的危害直接且深远:
处理效应偏误:若协变量未平衡,处理效应会混淆“处理的真实影响”与“协变量差异的影响”(比如处理组本身成绩更好,即使不参加辅导,成绩也会更高);
结果不可靠:偏差会导致处理效应估计值偏离真实值,甚至符号相反(比如真实效应为正,偏差导致估计为负);
政策误导:基于偏误结果制定的政策(比如推广无效的辅导program)会造成资源浪费或负面后果。
二、样本匹配偏差的来源与识别框架
(一)样本匹配偏差的三类核心来源
匹配偏差的产生并非偶然,而是源于PSM操作中的多个环节:
倾向得分估计偏差
倾向得分是匹配的“地基”,若估计错误,后续匹配必然失衡。常见问题包括:
协变量选择错误:遗漏混杂变量(比如研究辅导效果时忽略父母教育水平)、包含中介变量(比如辅导中的作业量,它是辅导的结果而非混杂变量)或无关变量(比如学生的星座);
模型形式错误:用线性模型拟合非线性关系(比如家庭收入与参加辅导的概率先升后降,但模型未加二次项);
估计方法偏差:小样本下Logit模型的参数估计存在偏差,或过度拟合(比如协变量数量超过样本量的10%)。
匹配策略选择偏差
即使倾向得分估计准确,匹配方法或参数选择不当也会导致偏差:
最近邻匹配的k值过小:k=1(一对一匹配)时,若控制组中最近邻个体的倾向得分与处理组差异较大,会引入偏差;
卡尺宽度过大:设定过宽的卡尺(比如0.3倍标准差)会匹配距离较远的个体,导致协变量失衡;
核匹配的带宽不当:带宽过大(比如0.2)会平滑过度,掩盖协变量差异;带宽过小(比如0.01)会导致方差过大。
共同支撑域不足的偏差
共同支撑域是处理组与控制组倾向得分的重叠区间。若重叠不足(比如处理组的倾向得分集中在0.7-0.9,控制组集中在0.1-0.5),会导致两类问题:
无法匹配:处理组中倾向得分0.5的个体找不到控制组匹配,只能“强行”匹配距离较远的个体,引入偏差;
外推错误:将结果外推到非重叠区域(比如用控制组中倾向得分0.5的个体推断处理组中0.7的个体的反事实结果),导致偏差。
(二)样本匹配偏差的识别方法与平衡检验
您可能关注的文档
- 2025年乡村振兴规划师考试题库(附答案和详细解析)(1224).docx
- 2025年国际会展管理师考试题库(附答案和详细解析)(1231).docx
- 2025年数据库系统工程师考试题库(附答案和详细解析)(1229).docx
- 2025年智能对话系统工程师考试题库(附答案和详细解析)(1221).docx
- 2025年碳金融分析师考试题库(附答案和详细解析)(1215).docx
- 2025年美国注册会计师(AICPA)考试题库(附答案和详细解析)(1213).docx
- 2025年职业生涯规划师考试题库(附答案和详细解析)(1228).docx
- ChatGPT的上下文理解优化.docx
- ESG评级对债券信用利差影响的实证研究.docx
- Fama-French五因子模型对科创版股票的适用性.docx
- 主题课程整理大班上.doc
- 2026人教版小学语文三年级上册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学语文四年级下册期末综合试卷3套(打印版含答案解析).docx
- 2026人教版小学二年级上册数学期末综合试卷精选3套(含答案解析).docx
- 2026人教版小学语文四年级上册期末综合试卷3套(含答案解析).docx
- 2026人教版小学二年级下册数学期末综合试卷3套(打印版含答案解析).docx
- 2026年地理信息行业年终总结汇报PPT.pptx
- 板块四第二十一单元封建时代的欧洲和亚洲 中考历史一轮复习.pptx
- 中考历史一轮复习:板块四第二十单元古代亚、非、欧文明+课件.pptx
- 第二次工业革命和近代科学文化中考历史一轮复习.pptx
原创力文档


文档评论(0)