计量经济学:倾向得分匹配(PSM)步骤.docxVIP

  • 0
  • 0
  • 约5.59千字
  • 约 12页
  • 2026-03-09 发布于上海
  • 举报

计量经济学:倾向得分匹配(PSM)步骤.docx

计量经济学:倾向得分匹配(PSM)步骤

引言

在因果推断的计量经济学研究中,观测数据的选择偏差始终是绕不开的难题。例如,评估一项扶贫政策的实际效果时,参与政策的群体可能本身就有更强烈的脱贫意愿或更灵活的就业能力,直接比较参与组与未参与组的收入差异,往往无法准确反映政策本身的作用。此时,倾向得分匹配(PropensityScoreMatching,PSM)作为一种经典的因果推断方法,通过模拟随机实验的逻辑,为解决选择偏差提供了有效路径。其核心思想是通过构建“倾向得分”(即个体接受处理的概率),将高维协变量信息压缩为一维得分,进而在得分相近的个体间进行匹配,最终得到更可靠的因果效应估计。本文将围绕PSM的完整实施流程,从理论基础到操作细节逐层展开,帮助读者系统掌握这一方法的核心步骤。

一、倾向得分匹配的理论基础与核心逻辑

要理解PSM的操作步骤,首先需要明确其背后的理论支撑与设计逻辑。

(一)选择偏差与反事实框架

因果推断的核心是比较同一研究对象在“接受处理”与“不接受处理”两种状态下的结果差异,但现实中个体只能处于一种状态,这就是“反事实缺失”问题。观测数据中,处理组与对照组的差异往往不仅来自处理本身,还源于两组在协变量(如年龄、教育水平、家庭背景等)上的系统性差异,即“选择偏差”。例如,研究某种新药疗效时,主动选择服用新药的患者可能健康意识更强、依从性更好,这些未被控制的协变量会干扰对药物效果的判断。

(二)倾向得分的定义与作用

为解决选择偏差,罗森鲍姆(Rosenbaum)与鲁宾(Rubin)提出了“倾向得分”的概念:倾向得分是给定一组协变量后,个体接受处理的条件概率,记为(P(X)=Pr(D=1|X)),其中(D)为处理变量(1表示接受处理,0表示未接受),(X)为协变量集合。倾向得分的关键作用在于“降维”——若协变量满足“强可忽略处理分配”假设(即处理分配仅依赖于可观测协变量,与潜在结果无关),则在倾向得分相同的个体中,协变量的分布是平衡的,此时比较处理组与对照组的结果差异即可估计因果效应。

(三)PSM的核心假设

PSM的有效性依赖于两大关键假设:

强可忽略性(Ignorability):处理分配与潜在结果在给定协变量条件下独立,即((Y^1,Y^0)D|X)。这意味着所有影响处理分配和结果的混杂因素都已被观测并纳入协变量集合。

共同支撑(CommonSupport):对于所有协变量(X),处理组与对照组的倾向得分存在重叠区域,即(0Pr(D=1|X)1)。若某类个体只存在于处理组或对照组(如所有高收入者都参与了政策),则无法找到匹配对象,需排除这部分样本。

理解上述理论后,我们可以更清晰地把握PSM操作步骤的设计逻辑——每一步都是为了验证假设、优化匹配质量,最终得到无偏的因果效应估计。

二、倾向得分匹配的具体实施步骤

PSM的实施是一个环环相扣的过程,需严格遵循“数据准备-倾向得分估计-匹配方法选择-匹配质量检验-结果分析”的主线,且各步骤间可能需要反复调整以确保可靠性。

(一)数据准备:明确变量与清洗样本

数据准备是PSM的起点,直接影响后续分析的质量。这一步需重点完成以下任务:

变量定义与筛选

处理变量(D):必须是二值变量(0/1),明确区分“接受处理”与“未接受处理”的状态(如“是否参与某培训项目”)。

结果变量(Y):研究关注的结局指标(如“收入水平”“健康指数”),需与处理变量有逻辑上的因果关系。

协变量(X):关键的混杂因素,需满足“强可忽略性”假设。协变量选择需遵循“相关且外生”原则:既包括所有影响处理分配和结果的变量(如评估教育政策时,家庭收入、父母教育水平等),又需排除中介变量(如政策实施后才产生的变量,避免过度控制)和对结果无影响的变量(冗余变量会降低倾向得分估计效率)。

数据清洗与预处理

缺失值处理:协变量或结果变量的缺失会导致样本丢失,需根据缺失机制选择处理方式。若缺失随机(如问卷漏答),可采用均值插补、回归插补或删除缺失样本;若缺失非随机(如高收入者隐瞒收入),需谨慎处理,避免引入新的偏差。

异常值检测:通过箱线图、Z分数等方法识别极端值(如年龄为负数、收入远超群体均值10倍),需结合实际情况判断是记录错误(修正)还是真实极端情况(保留或单独分析)。

分类变量处理:对于分类协变量(如性别、地区),需转换为虚拟变量(如“男性=1,女性=0”);有序分类变量(如教育程度“小学、初中、高中”)可直接使用或转换为连续变量(如“受教育年限”)。

(二)倾向得分估计:构建预测模型

倾向得分的估计是PSM的核心环节,本质是通过统计模型预测每个个体接受处理的概率。最常用的方法是逻辑回归(Logit模型),因其输出概率值的特性与倾向得分的定义高度契合。

模型

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档