网站大量收购独家精品文档,联系QQ:2885784924

PSM倾向得分匹配实操.pdf

PSM倾向得分匹配实操.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

倾倾向向得得分分匹匹配配((PSM))的的实实践践操操作作与与核核心心要要点点解解析析

一一、、方方法法原原理理与与适适用用场场景景

倾向得分匹配(PropensityScoreMatching)是察性研究中消除选择偏误的常用方法。其核心思想是通过构建反事实框架,

为处理组的每个个体找到背景特征相似的对照组个体,从而模拟随机试验环境。该方法适用于存在明显选择偏误的察数据,

特别是当实验分组无法随机分配时(如政策评估、医疗效果分析等场景)。需特别注意,PSM的有效性依赖于两个关键假

设:条件独立假设(CIA)和共同支撑条件(CommonSupport)。

二二、、数数据据准准备备与与变变量量选选择择

1.样本筛选标准

明确处理组和对照组的划分标准,确保分组变量具有明确的政策含义或干预特征。建议保留原始样本量的15%-20%作为

共同支撑区域,当对照组样本量不足处理组的3倍时需谨慎使用。

2.协变量选择原则

纳入所有同时影响处理变量和结果变量的混淆因素,优先选择可测的基线特征变量。建议通过文献回顾和理论分析确

定变量清单,避免数据驱动的变量筛选。典型协变量包括人口统计学特征、基线健康状况、经济指标等。

3.缺失值处理策略

对连续变量采用多重插补法(MultipleImputation),分类变量使用众数填补。需记录缺失比例,当关键变量缺失超过

30%时应考虑剔除该变量或调整研究设计。

三三、、倾倾向向得得分分估估计计

1.模型选择与验证

推荐使用ogit模型进行初步估计,当结果变量分布存在明显偏态时可尝试Probit模型。通过Hosmer-emeshow检验评估

模型拟合优度,计算ROC曲线下面积(AUC)应大于0.7。若AUC超过0.9可能提示模型过拟合。

2.变量交互与多项式项

探索重要变量的二次项和交互项,如年龄的平方项、收入与教育程度的交互项。建议通过逐步回归法筛选显著项,使用

似然比检验比较模型改进效果。

3.分数分布可视化

绘制处理组与对照组的倾向得分分布核密度图,察重叠区域范围。使用JitterPlot展示个体得分分布,识别可能的外围

异常值。当得分分布呈现明显双峰特征时,需重新检验模型设定。

四四、、匹匹配配方方法法选选择择与与实实施施

1.最近邻匹配(NearestNeighbor)

设置卡尺(caliper)为倾向得分标准差的0.2倍,启用有放回匹配以降低方差。建议进行1:2匹配提高估计效率,当对照

组样本充足时可尝试1:4匹配。需检查个体被重复使用的次数,避免个别样本过度影响结果。

2.核匹配与局部线性回归

对于小样本研究推荐Epanechnikov核函数,带宽参数设置为0.06。局部线性回归匹配可有效处理边界偏差,但计算量较

大。需注意核函数选择对结果敏感性的影响。

3.分层匹配与精确匹配

对关键分类变量(如性别、地区)实施精确匹配,确保核心特征的完全平衡。分层匹配建议划分5-10个区间,检验各层

内的平衡性是否达标。

五五、、匹匹配配质质量量评评估估

1.标准化差异检验

计算各协变量在处理组和对照组间的标准化差异(StandardizedDifference),阈值应小于10%。重点关注显著影响结

果的变量平衡情况,对标准化差异超过15%的变量需重新调整模型。

2.t检验与方差分析

匹配后各连续变量的组间差异应无统计学意义(p0.1),分类变量的卡方检验p值需大于0.05。建议使用加权方差分析

处理连续变量,采用Bonferroni校正控制多重检验误差。

3.伪R²检验

匹配后的伪R²应接近0,一般要求小于0.1。若伪R²显著大于匹配前值,提示匹配过程未能有效消除组间差异,需检查模

型误设问题。

六六、、因因果果效效应应估估计计

1.平均处理效应(ATE)计算

采用自助法(Bootstrap)估计标准误,重复抽样500次以上。对连续结果变量报告均值差异及置信区间,二分类变量使

用风险比(RR)或优势比(OR)。

2.异质性分析

通过分样本回归检验处理效应的稳定性,重点关注不同性别、年龄组、地区的效应差异。建议绘制处理效应的条件分布

图,识别可能存在的阈值效应。

3.敏感性分析

文档评论(0)

eureka + 关注
实名认证
内容提供者

好好学习,天天向上

1亿VIP精品文档

相关文档