倾向得分匹配法（PSM）实战.docxVIP

下载本文档

0
0
约5.17千字
约 11页
2025-12-16 发布于上海
举报
版权申诉

倾向得分匹配法（PSM）实战.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

倾向得分匹配法（PSM）实战

一、引言：因果推断中的”平衡术”

在社会科学、医学研究和政策评估中，我们常需要回答“某一干预措施是否有效”的问题。例如：小班教学是否能提升学生成绩？新药是否比传统药物更能降低患者死亡率？这类问题的核心是因果推断，但现实中由于“选择偏差”——即接受干预的个体（处理组）与未接受干预的个体（对照组）在基线特征上存在系统性差异——直接比较两组结果会导致结论不可靠。倾向得分匹配法（PropensityScoreMatching,PSM）正是解决这一问题的重要工具，它通过“模拟随机实验”的思路，在非随机数据中找到与处理组在关键特征上高度相似的对照组，从而更准确地估计干预的真实效果。本文将从原理到操作，结合实战场景，系统解析PSM的应用全流程。

二、原理筑基：理解PSM的核心逻辑

（一）从选择偏差到倾向得分的提出

假设我们要研究“参加职业培训是否能提高就业概率”。现实中，主动参加培训的人可能本身更积极、教育水平更高，这些特征（协变量）既影响是否接受培训（处理分配），又影响就业结果（因变量）。直接比较培训组和未培训组的就业差异，实际上混淆了“培训效果”和“个体特征差异”。此时，我们需要找到一组未参加培训但在年龄、教育、工作经验等协变量上与培训组高度相似的个体作为对照，才能分离出培训的真实效果。

倾向得分（PropensityScore）正是为解决这一问题而设计的综合指标。它是“在给定协变量的情况下，个体被分配到处理组的概率”，用统计模型（通常是逻辑回归）计算得出。例如，通过逻辑回归将“是否参加培训”作为因变量，年龄、教育等协变量作为自变量，得到每个个体的倾向得分值（0-1之间的概率）。理论上，若两个个体的倾向得分相同，他们在所有协变量上的分布也应相同——这是PSM的核心假设（平衡假设）。因此，只需根据倾向得分匹配处理组和对照组，就能实现协变量的平衡，进而估计因果效应。

（二）PSM的三大关键假设

要确保PSM结果的可靠性，需满足三个基本假设：

第一，条件独立性假设（ConditionalIndependenceAssumption,CIA）：在给定协变量的情况下，处理分配与潜在结果无关。通俗地说，所有影响处理分配和结果的混杂因素都已被观测并纳入协变量，不存在未观测到的混杂变量（如“个人努力程度”若未被测量，可能违反这一假设）。

第二，重叠假设（OverlapAssumption）：对于所有协变量组合，个体被分配到处理组或对照组的概率都大于0且小于1。即不存在“必然被处理”或“必然不被处理”的个体，否则无法找到匹配对象（例如，某类人群100%参加培训，这类人无法找到对照）。

第三，稳定单位处理值假设（StableUnitTreatmentValueAssumption,SUTVA）：个体的处理状态不影响其他个体的结果（如培训效果不会因他人参加培训而改变）。

这三大假设是PSM的“地基”，实战中需通过数据检验和逻辑论证来尽可能满足。

三、实战全流程：从数据到结果的七步操作

（一）步骤1：明确研究问题与数据准备

实战的第一步是明确因果关系的“处理”与“结果”。例如，研究“某健康管理项目对降低高血压的效果”，则“处理”是“是否参与项目”，“结果”是“干预后血压值”。接下来需收集三类数据：

处理变量（T）：二分类变量（1=参与，0=未参与）；

结果变量（Y）：连续或二分类变量（如收缩压值、是否达标）；

协变量（X）：所有可能影响处理分配和结果的变量，如年龄、性别、基线血压、是否吸烟、家庭收入等。

需特别注意协变量的选择：遗漏关键混杂变量会导致匹配后仍存在偏差（如忽略“基线血压”，可能高估项目效果）；纳入与处理或结果无关的变量（如“宠物数量”）虽不影响一致性，但可能降低匹配效率（减少可匹配样本）。因此，优先纳入理论或经验上明确的混杂因素，对不确定的变量可通过统计检验（如卡方检验、t检验）判断是否与处理或结果相关。

（二）步骤2：估计倾向得分模型

倾向得分通常通过逻辑回归（Logit模型）估计，将处理变量作为因变量，协变量作为自变量。例如，模型形式为：

P(T=1|X)=1/[1+exp(-(β0+β1X1+β2X2+…+βkXk))]

其中，P(T=1|X)即为倾向得分（PS）。

建模时需注意：

协变量的函数形式：连续变量（如年龄）可直接纳入，也可根据数据分布进行分段（如≤40岁、41-60岁、60岁）或多项式转换（如年龄平方项），以更好捕捉非线性关系；

多重共线性：若协变量间相关性过强（如体重和BMI），可能导致模型系数估计不稳定，可通过VIF（方差膨胀因子）检验，若VIF10需考虑剔除或合并变量；

模型拟合优度：通过伪R2（如McFaddenR2）、混淆矩阵（预测准

您可能关注的文档

文档评论（0）

gyf70 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

倾向得分匹配法（PSM）实战.docxVIP