- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
倾向得分匹配的共同支撑条件验证
一、引言
在因果推断研究中,倾向得分匹配(PropensityScoreMatching,PSM)是一种被广泛应用的统计方法,其核心在于通过协变量构建倾向得分(即个体被分配到处理组的概率),将处理组与控制组中倾向得分相近的个体进行匹配,从而平衡两组间的协变量分布,减少选择偏差,最终估计出更可靠的因果效应。然而,PSM方法的有效性依赖于一系列前提条件,其中“共同支撑条件”(CommonSupportCondition)是最易被忽视却至关重要的一环。若共同支撑条件不满足,即处理组与控制组的倾向得分分布缺乏足够重叠,匹配过程中可能被迫纳入倾向得分差异过大的样本,导致匹配结果偏离真实因果效应。本文将围绕共同支撑条件的理论内涵、验证方法及常见问题应对展开系统探讨,旨在为研究者提供可操作的实践指导,推动PSM方法的规范应用。
二、共同支撑条件的理论基础
(一)倾向得分匹配的逻辑起点
倾向得分匹配的思想源于鲁宾因果模型(RubinCausalModel),其核心假设是“强可忽略处理分配”(StronglyIgnorableTreatmentAssignment),即给定协变量集合,处理分配与潜在结果独立。为了实现这一假设,研究者需要通过协变量构建倾向得分,将高维协变量降维为一维的倾向得分值,从而在倾向得分维度上实现处理组与控制组的平衡。此时,倾向得分可被视为“平衡得分”(BalancingScore),其分布的重叠程度直接决定了两组在协变量空间上的可比性。
(二)共同支撑条件的定义与作用
共同支撑条件,又称“重叠假设”(OverlapAssumption),指处理组与控制组的倾向得分分布必须存在足够大的重叠区域。具体而言,对于所有可能的协变量组合,处理组中个体的倾向得分不应完全高于或低于控制组,反之亦然。这一条件的本质是确保在匹配过程中,每个处理组个体都能找到倾向得分相近的控制组个体,反之亦然。若共同支撑条件不满足,匹配将被迫在非重叠区域进行“外推”(Extrapolation),即使用倾向得分差异过大的样本进行匹配,此时匹配结果可能受到极端值的干扰,无法准确反映真实的因果关系。
例如,在一项教育政策评估研究中,若处理组(接受新型教学法的学生)的倾向得分普遍高于控制组(接受传统教学法的学生),则匹配时可能需要将处理组中倾向得分较低的个体与控制组中倾向得分较高的个体配对,而这两个群体在协变量(如家庭背景、初始成绩)上可能存在系统性差异,导致匹配后的协变量平衡效果不佳,最终因果效应估计出现偏差。
(三)共同支撑条件与其他前提条件的关系
除共同支撑条件外,PSM还需要满足“条件独立假设”(ConditionalIndependenceAssumption)和“正值假设”(PositivityAssumption)。其中,条件独立假设要求协变量已充分控制所有混淆变量,而正值假设则要求对于每个协变量组合,个体被分配到处理组或控制组的概率均大于0且小于1。共同支撑条件可视为正值假设的“操作化表达”——若正值假设成立,理论上处理组与控制组的倾向得分分布应存在重叠;反之,若共同支撑条件不满足,则可能意味着正值假设被违反,或协变量选择存在遗漏。因此,共同支撑条件的验证不仅是PSM的必要步骤,更是检验研究设计合理性的重要手段。
三、共同支撑条件的验证方法
(一)可视化验证:直观观察分布重叠
可视化方法是验证共同支撑条件最直接的手段,通过绘制处理组与控制组的倾向得分分布图表,研究者可直观判断两者的重叠程度。常用的可视化工具包括核密度图(KernelDensityPlot)和箱线图(BoxPlot)。
核密度图通过平滑的曲线展示倾向得分的概率密度分布,处理组与控制组的曲线重叠区域即为共同支撑区域。若两条曲线在某个区间内完全分离(如处理组曲线整体位于控制组曲线右侧),则说明该区间内缺乏共同支撑。例如,在核密度图中,若处理组的峰值集中在0.7-0.9区间,而控制组的峰值集中在0.1-0.3区间,中间0.4-0.6区间仅有少量重叠,则共同支撑区域较窄,匹配时需谨慎处理。
箱线图则通过展示倾向得分的四分位数、中位数及异常值,更清晰地呈现两组分布的位置和离散程度。若处理组的箱线图完全位于控制组箱线图的上方或下方(即处理组的最小值大于控制组的最大值,或反之),则说明两组倾向得分无重叠,共同支撑条件完全不满足;若两组箱线图部分重叠,则需结合重叠区域的覆盖比例进一步判断。
(二)数值指标验证:量化重叠程度
仅通过可视化方法可能存在主观判断偏差,因此需要结合数值指标对共同支撑条件进行量化验证。常用的指标包括重叠率(OverlapRate)、标准化差异(StandardizedDifference)和最小最大支撑
您可能关注的文档
- 2025年审计专业技术资格考试题库(附答案和详细解析)(1218).docx
- 2025年工业大数据分析师考试题库(附答案和详细解析)(1221).docx
- 2025年机器人操作工程师考试题库(附答案和详细解析)(1203).docx
- 2025年注册交通工程师考试题库(附答案和详细解析)(1203).docx
- 2025年注册信息系统安全专家(CISSP)考试题库(附答案和详细解析)(1213).docx
- 2025年注册岩土工程师考试题库(附答案和详细解析)(1224).docx
- 2025年注册财富管理师(CWM)考试题库(附答案和详细解析)(1209).docx
- 万岁山雪夜秒变广寒宫.docx
- 中央厨房配送方案.docx
- 中小学的劳动教育课程设计.docx
- 内蒙古自治区鄂尔多斯市第一中学2025-2026学年第一学期高一年级学业诊断检测12月月考语文试卷含答案.pdf
- 四川省2025-2026学年高三上学期12月阶段性自测地理试卷含答案.pdf
- 林区蓄水池防火配套建设指南.ppt
- 四川省2025-2026学年高三上学期12月阶段性自测历史试卷含答案.pdf
- 云南省2025-2026学年高三上学期12月阶段性自测地理试卷含答案.pdf
- 火灾区域生态修复实施指南.ppt
- 云南省2025-2026学年高三上学期12月阶段性自测历史试卷含答案.pdf
- 云南省2025-2026学年高三上学期12月阶段性自测日语试卷含答案.pdf
- 2025年水产养殖科技合作协议(鱼苗).docx
- 2025年水产养殖苗种繁育合作协议协议.docx
原创力文档


文档评论(0)