- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
倾向得分匹配(PSM)中的共同支撑条件检验
引言
在因果推断领域,倾向得分匹配(PropensityScoreMatching,PSM)是一种被广泛应用的统计方法,其核心思想是通过构建“反事实”场景,将受处理组与未受处理组中特征相似的样本进行匹配,从而估计处理效应的真实性。然而,PSM方法的有效性依赖于一系列前提条件,其中“共同支撑条件”(CommonSupportCondition)被视为最关键的技术门槛之一。简单来说,共同支撑条件要求受处理组与未受处理组的倾向得分分布存在重叠区域,只有在这一重叠范围内的样本才能被合理匹配。若忽略共同支撑条件检验,可能导致匹配过程中纳入分布差异过大的样本,进而引发“外推偏差”(ExtrapolationBias),最终影响因果推断结果的可靠性。本文将围绕共同支撑条件检验展开系统论述,从概念内涵、检验方法到实践挑战,逐层深入解析其在PSM中的核心作用。
一、共同支撑条件的理论内涵与实践意义
(一)倾向得分与共同支撑条件的逻辑关联
倾向得分(PropensityScore)是PSM方法的核心工具,它指的是在给定观测特征的条件下,个体接受处理的概率。通过将高维的协变量信息压缩为一维的倾向得分,研究者可以将原本复杂的“多维匹配”简化为“单维度匹配”,大幅降低计算复杂度。然而,倾向得分的有效性依赖于两个关键假设:一是“条件独立性假设”(ConditionalIndependenceAssumption,CIA),即处理分配与潜在结果在控制协变量后独立;二是“共同支撑条件”,即对于所有协变量组合,受处理组与未受处理组的倾向得分存在重叠。
共同支撑条件的本质是要求“对于每一个可能的倾向得分值,至少存在一些受处理组样本和一些未受处理组样本”。换句话说,若某个倾向得分值仅存在于受处理组或仅存在于未受处理组,那么该得分值对应的样本无法找到匹配对象,必须被排除在分析之外。这一条件的存在,本质上是为了避免在无重叠的区域进行“反事实推断”——因为在这些区域中,我们无法观察到对应组别的样本,也就无法验证处理效应的真实性。
(二)共同支撑条件失效的典型后果
若共同支撑条件不满足,PSM分析可能面临以下三类问题:
首先是“样本选择偏差”。当两组倾向得分分布严重分离时,强行匹配会导致部分样本被错误纳入,例如将倾向得分极高的未受处理组样本与倾向得分较低的受处理组样本匹配,这类样本在原始数据中本无交集,匹配后的比较缺乏实际意义。
其次是“估计效率损失”。为了满足共同支撑条件,研究者往往需要剔除分布两端无重叠的样本,这可能导致有效样本量减少。但这种“损失”是必要的——相比保留无效样本导致的偏差,牺牲部分样本量反而能提升估计的准确性。
最后是“结论外推风险”。若研究结果仅基于共同支撑区域内的样本,其结论的外部效度(即对总体的代表性)可能受限。例如,若受处理组的倾向得分集中在高位,而未受处理组集中在低位,共同支撑区域可能仅覆盖中间部分,此时推断的处理效应仅适用于中间倾向得分的群体,无法直接推广到全体。
二、共同支撑条件的检验方法与操作流程
(一)可视化检验:直观识别分布重叠
可视化方法是最常用的共同支撑条件检验手段,其优势在于直观易懂,能快速定位分布差异的具体区域。常见的可视化工具包括核密度图(KernelDensityPlot)和直方图(Histogram)。
核密度图通过平滑的曲线展示倾向得分的分布形态,研究者可将受处理组与未受处理组的密度曲线绘制在同一坐标系中,观察两者的重叠情况。若两条曲线在某个区间内完全分离(例如受处理组曲线集中在0.7-0.9,未受处理组集中在0.1-0.3),则说明该区间无共同支撑;若两条曲线部分重叠(如受处理组0.5-0.9与未受处理组0.3-0.7重叠于0.5-0.7),则重叠区域即为有效支撑域。需要注意的是,核密度图的平滑程度(由带宽参数决定)可能影响视觉判断,研究者需根据数据特征调整带宽,避免过度平滑掩盖真实差异。
直方图则通过分箱统计倾向得分的频数,直接展示两组在各区间的样本分布。例如,将倾向得分划分为0-0.1、0.1-0.2……0.9-1.0共10个区间,统计每个区间内受处理组与未受处理组的样本数量。若某个区间内仅一组有样本,则该区间无共同支撑。直方图的优势在于保留了原始数据的频数信息,适合样本量较大时使用,但分箱数量的选择(如10箱或20箱)可能影响结果解读,需结合数据分布灵活调整。
(二)统计量检验:量化重叠程度
除了可视化方法,研究者还需通过统计量量化共同支撑的强度,常用指标包括“重叠指数”(OverlapIndex)和“标准化差异检验”(StandardizedMeanDifference)。
重叠指数是衡量两组倾向得分分布重叠程度的综合指标,其计算逻辑
您可能关注的文档
- 2025年中药调剂师考试题库(附答案和详细解析)(1211).docx
- 2025年卫生专业技术资格考试题库(附答案和详细解析)(1216).docx
- 2025年导游资格考试考试题库(附答案和详细解析)(1219).docx
- 2025年新闻记者考试题库(附答案和详细解析)(1214).docx
- 2025年注册地籍测绘师考试题库(附答案和详细解析)(1214).docx
- 2025年注册地质工程师考试题库(附答案和详细解析)(1216).docx
- 2025年注册结构工程师考试题库(附答案和详细解析)(1211).docx
- 2025年注册节能评估师考试题库(附答案和详细解析)(1212).docx
- 2025年量化金融证书(CQF)考试题库(附答案和详细解析)(1214).docx
- C++中的“指针”与“引用”的区别及应用场景.docx
- 鄂尔多斯市东祥碳化硅生产设备升级改造项目环境影响报告书.pdf
- 准格尔旗华源化工10万ta煤系高岭土制粒技改项目环境影响报告表.pdf
- 内蒙古向辉玻璃深加工基地建设项目环境影响报告书.pdf
- 鄂尔多斯达拉特经济开发区三垧梁铁路专用线环境影响报告书.pdf
- 鄂尔多斯煤矸石营养土制备技术与应用项目环境影响报告表.pdf
- 鄂尔多斯聚兴隆商贸固体废弃物治理项目环境影响报告表.pdf
- 鄂尔多斯市白云危废焚烧及综合利用项目变更工程环境影响报告书.pdf
- 鄂尔多斯同达丁家渠煤矿灾害治理区废旧矿坑生态修复土地治理人工种草项目环境影响报告书.docx
- 2026年科普知识题库附参考答案(黄金题型).docx
- 2026年演出经纪人考试题库带答案(夺分金卷).docx
最近下载
- 48个音标教学课件.pptx VIP
- 大作业:如何理解“作风建设永远在路上,永远没有休止符”?我们应如何加强作风建设?.pdf VIP
- [非密] 【终审】Q_CNNC GB 43-2022 高风险作业指南.pdf
- 第五届管理会计案例大赛.pptx VIP
- 小型制冷系统制冷匹配计及节能研究毕业论文.docx VIP
- 物业管理服务投标文件(写字楼项目).doc VIP
- JJF(冀) 3042-2025 水分接收器校准规范.docx VIP
- 现代路灯照明节能技术及设备现状-现代(路灯)照明节能技术及设备.doc VIP
- 铁道车辆机械装置检修 客车SW系列转向架 SW-160型转向架.pptx VIP
- 营销管理知到智慧树期末考试答案题库2025年同济大学.docx VIP
原创力文档


文档评论(0)