- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
倾倾向向得得分分匹匹配配((PSM))的的实实践践操操作作与与核核心心要要点点解解析析
一一、、方方法法原原理理与与适适用用场场景景
倾向得分匹配(PropensityScoreMatching)是察性研究中消除选择偏误的常用方法。其核心思想是通过构建反事实框架,
为处理组的每个个体找到背景特征相似的对照组个体,从而模拟随机试验环境。该方法适用于存在明显选择偏误的察数据,
特别是当实验分组无法随机分配时(如政策评估、医疗效果分析等场景)。需特别注意,PSM的有效性依赖于两个关键假
设:条件独立假设(CIA)和共同支撑条件(CommonSupport)。
二二、、数数据据准准备备与与变变量量选选择择
1.样本筛选标准
明确处理组和对照组的划分标准,确保分组变量具有明确的政策含义或干预特征。建议保留原始样本量的15%-20%作为
共同支撑区域,当对照组样本量不足处理组的3倍时需谨慎使用。
2.协变量选择原则
纳入所有同时影响处理变量和结果变量的混淆因素,优先选择可测的基线特征变量。建议通过文献回顾和理论分析确
定变量清单,避免数据驱动的变量筛选。典型协变量包括人口统计学特征、基线健康状况、经济指标等。
3.缺失值处理策略
对连续变量采用多重插补法(MultipleImputation),分类变量使用众数填补。需记录缺失比例,当关键变量缺失超过
30%时应考虑剔除该变量或调整研究设计。
三三、、倾倾向向得得分分估估计计
1.模型选择与验证
推荐使用ogit模型进行初步估计,当结果变量分布存在明显偏态时可尝试Probit模型。通过Hosmer-emeshow检验评估
模型拟合优度,计算ROC曲线下面积(AUC)应大于0.7。若AUC超过0.9可能提示模型过拟合。
2.变量交互与多项式项
探索重要变量的二次项和交互项,如年龄的平方项、收入与教育程度的交互项。建议通过逐步回归法筛选显著项,使用
似然比检验比较模型改进效果。
3.分数分布可视化
绘制处理组与对照组的倾向得分分布核密度图,察重叠区域范围。使用JitterPlot展示个体得分分布,识别可能的外围
异常值。当得分分布呈现明显双峰特征时,需重新检验模型设定。
四四、、匹匹配配方方法法选选择择与与实实施施
1.最近邻匹配(NearestNeighbor)
设置卡尺(caliper)为倾向得分标准差的0.2倍,启用有放回匹配以降低方差。建议进行1:2匹配提高估计效率,当对照
组样本充足时可尝试1:4匹配。需检查个体被重复使用的次数,避免个别样本过度影响结果。
2.核匹配与局部线性回归
对于小样本研究推荐Epanechnikov核函数,带宽参数设置为0.06。局部线性回归匹配可有效处理边界偏差,但计算量较
大。需注意核函数选择对结果敏感性的影响。
3.分层匹配与精确匹配
对关键分类变量(如性别、地区)实施精确匹配,确保核心特征的完全平衡。分层匹配建议划分5-10个区间,检验各层
内的平衡性是否达标。
五五、、匹匹配配质质量量评评估估
1.标准化差异检验
计算各协变量在处理组和对照组间的标准化差异(StandardizedDifference),阈值应小于10%。重点关注显著影响结
果的变量平衡情况,对标准化差异超过15%的变量需重新调整模型。
2.t检验与方差分析
匹配后各连续变量的组间差异应无统计学意义(p0.1),分类变量的卡方检验p值需大于0.05。建议使用加权方差分析
处理连续变量,采用Bonferroni校正控制多重检验误差。
3.伪R²检验
匹配后的伪R²应接近0,一般要求小于0.1。若伪R²显著大于匹配前值,提示匹配过程未能有效消除组间差异,需检查模
型误设问题。
六六、、因因果果效效应应估估计计
1.平均处理效应(ATE)计算
采用自助法(Bootstrap)估计标准误,重复抽样500次以上。对连续结果变量报告均值差异及置信区间,二分类变量使
用风险比(RR)或优势比(OR)。
2.异质性分析
通过分样本回归检验处理效应的稳定性,重点关注不同性别、年龄组、地区的效应差异。建议绘制处理效应的条件分布
图,识别可能存在的阈值效应。
3.敏感性分析
文档评论(0)