倾向得分匹配法（PSM）原理.docxVIP

下载本文档

0
0
约5.08千字
约 10页
2025-12-11 发布于上海
举报
版权申诉

倾向得分匹配法（PSM）原理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

倾向得分匹配法（PSM）原理

引言

在社会科学、医学研究、公共政策评估等领域，研究者常面临一个核心难题：如何科学评估某一“处理”（如一项政策、一种药物、一次培训）对“结果”（如经济增长、健康改善、收入提升）的真实影响？理想状态下，我们可以通过随机对照试验（RCT）让研究对象被随机分配到处理组或控制组，从而排除其他变量干扰，直接比较两组结果差异。但现实中，由于伦理限制、成本过高或操作难度大，随机对照试验往往难以实施。此时，观测性数据成为主要研究来源，但观测性数据中普遍存在的“选择偏差”（即处理组与控制组在协变量上存在系统性差异）会严重干扰因果推断的准确性。

倾向得分匹配法（PropensityScoreMatching，PSM）正是为解决这一问题而生的统计方法。它通过构建“倾向得分”这一综合指标，将多维度的协变量信息压缩为单一得分，进而在非随机分配的观测数据中，找到与处理组在倾向得分上高度相似的控制组样本，最终通过比较匹配后的两组结果，获得更可靠的因果效应估计。本文将从理论基础、实施步骤、关键环节、优势与局限等维度，系统解析PSM的核心原理。

一、PSM的理论基础：从反事实框架到倾向得分

（一）因果推断的核心挑战：反事实缺失与选择偏差

要理解PSM的作用，需先明确因果推断的基本逻辑。根据“反事实框架”（CounterfactualFramework），个体在接受处理（记为T=1）后的结果记为Y?，未接受处理（T=0）时的结果记为Y?，那么该个体的因果效应为Y?-Y?。但现实中，同一时间点个体只能处于处理或未处理状态，因此Y?和Y?无法同时观测，这就是“反事实缺失”问题。

（二）倾向得分的提出：协变量的降维与平衡

1983年，罗森鲍姆（Rosenbaum）和鲁宾（Rubin）提出“倾向得分”（PropensityScore，记为P(X)）的概念，定义为在给定协变量X的条件下，个体接受处理的概率，即P(X)=Pr(T=1|X)。倾向得分的关键价值在于：若处理分配满足“强可忽略性”假设（即处理分配仅依赖于可观测的协变量X，且在给定X时，处理状态与反事实结果独立），那么倾向得分P(X)可以作为X的充分统计量——只要两个个体的P(X)相同，他们在X上的分布也相同。

这一性质使得我们可以将原本需要匹配所有协变量X的复杂操作，简化为匹配单一的倾向得分P(X)。例如，若处理组中有一个样本的倾向得分为0.6，我们只需在控制组中找到倾向得分接近0.6的样本进行匹配，而无需逐一匹配年龄、教育水平等具体变量。这种“降维”操作大大降低了匹配的难度，同时保留了协变量平衡的效果。

（三）PSM的核心逻辑：通过匹配实现“伪随机化”

PSM的最终目标是通过倾向得分匹配，使得处理组与控制组在倾向得分分布上高度重叠，进而在协变量X上达到平衡。此时，两组的差异可近似看作随机分配的结果，选择偏差被大幅消除，处理效应的估计值（如平均处理效应ATE或处理组的平均处理效应ATT）将更接近真实因果效应。

例如，假设我们要研究某扶贫政策对家庭收入的影响。处理组是参与该政策的家庭，控制组是未参与的家庭。由于参与政策可能与家庭劳动力数量、地理位置、教育水平等因素相关，直接比较两组收入会存在选择偏差。通过PSM，我们为每个处理组家庭找到倾向得分（即参与政策的概率）相近的控制组家庭，匹配后两组在劳动力数量、地理位置等协变量上的分布趋于一致，此时比较两组收入差异，就能更准确地反映政策的真实效果。

二、PSM的实施步骤：从模型构建到结果验证

（一）步骤1：明确研究问题与处理变量

PSM的第一步是清晰界定研究问题中的“处理”（Treatment）和“结果”（Outcome）变量。处理变量T是二分类变量（0或1），例如“是否参加培训”“是否接受某种治疗”；结果变量Y是需要评估的最终指标，如“收入”“健康指数”等。同时，需明确研究关注的因果效应类型，常见的有ATT（处理组的平均处理效应）和ATE（总体的平均处理效应），前者更关注处理组本身的效果，后者关注所有个体的平均效果。

（二）步骤2：选择协变量并构建倾向得分模型

协变量X的选择是PSM的关键环节。理论上，X应包含所有可能影响处理分配和结果变量的混杂因素（C

您可能关注的文档

文档评论（0）

***** + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

倾向得分匹配法（PSM）原理.docxVIP