倾向得分匹配法(PSM)中卡尺匹配与核匹配的效果比较.docxVIP

  • 0
  • 0
  • 约5.06千字
  • 约 11页
  • 2026-01-28 发布于江苏
  • 举报

倾向得分匹配法(PSM)中卡尺匹配与核匹配的效果比较.docx

倾向得分匹配法(PSM)中卡尺匹配与核匹配的效果比较

一、倾向得分匹配法(PSM)的核心逻辑与匹配方法概述

(一)PSM的起源与因果推断逻辑

在观察性研究中,我们经常需要回答“政策干预是否有效”“教育是否提高收入”这类因果问题。但与随机对照试验(RCT)不同,观察性研究的处理组(如接受干预的个体)和控制组(未接受干预的个体)并非随机分配——个体是否接受处理往往与自身特征相关(比如更有动力的人更可能参加培训)。这种“选择偏差”会导致直接比较两组结果时,把“个体特征的差异”混淆成“处理的效应”,最终得到错误的结论。

倾向得分匹配法(PSM)正是为解决这一问题而生。它的核心思想来自“倾向得分定理”:如果两个个体的倾向得分(即基于协变量特征被分配到处理组的概率)相同,那么他们的协变量分布在处理组和控制组中是平衡的。换句话说,只要我们根据倾向得分匹配,就能消除协变量不平衡带来的选择偏差,从而准确估计处理效应。

倾向得分是一个0到1之间的数值,比如一个学历高、经验丰富的人,被选为培训项目处理组的概率更高,倾向得分更接近1;而学历低、经验少的人,倾向得分更接近0。PSM将多维的协变量平衡问题转化为一维的倾向得分平衡问题,大幅降低了匹配的复杂度——我们不需要逐一平衡每个协变量,只需平衡倾向得分即可。

(二)PSM的关键步骤与匹配方法分类

PSM的实施分为三个关键步骤:

第一步是估计倾向得分:用logit或probit模型,以“是否属于处理组”为因变量,以影响处理分配和结果的协变量(如年龄、性别、学历)为自变量,计算每个个体的倾向得分。

第二步是匹配:根据倾向得分将处理组个体与控制组个体配对,这是PSM的核心环节。

第三步是估计处理效应:计算匹配后处理组与控制组的结果差异,取平均得到处理效应(如ATT,处理组平均处理效应;ATE,平均处理效应)。

常见的匹配方法可分为四类:最近邻匹配(找倾向得分最接近的1个或k个控制组个体)、卡尺匹配(限制倾向得分范围的最近邻匹配)、核匹配(加权平均所有控制组个体)、马氏距离匹配(结合协变量和倾向得分的距离匹配)。其中,卡尺匹配与核匹配因特点鲜明、应用广泛,成为本文的比较重点。

二、卡尺匹配的原理、操作与特点

(一)卡尺匹配的核心定义与操作逻辑

卡尺匹配是“限制范围的最近邻匹配”,核心逻辑是:为每个处理组个体设定一个“卡尺”(倾向得分的允许范围),只在控制组中寻找倾向得分落在卡尺内的个体,再选最接近的1个或k个作为匹配对象;若没有符合条件的控制组个体,则丢弃该处理组个体。

卡尺宽度是关键参数,常用两种设定方式:绝对宽度(如0.05,倾向得分差异不超过0.05)和相对宽度(倾向得分标准差的0.2倍,即卡尺宽度=0.2×σ)。后者来自经验法则——研究发现,0.2σ的卡尺能有效控制偏差,同时避免过度丢弃样本。

举个例子:处理组个体倾向得分0.6,倾向得分标准差0.1,卡尺宽度为0.02(0.2×0.1)。此时,仅在控制组中找倾向得分0.58-0.62的个体,选最接近0.6的作为匹配对象;若没有,则丢弃该处理组个体。

(二)卡尺匹配的优势:严格控制匹配偏差

卡尺匹配的最大优势是严格限制倾向得分差异,从而大幅减少残余偏差。由于卡尺内的个体倾向得分接近,协变量分布也更平衡——比如某就业政策研究中,原始数据处理组平均年龄35岁、学历高中,控制组平均年龄40岁、学历初中;用0.2σ卡尺匹配后,匹配对象平均年龄34.8岁、学历高中,协变量标准化均值差(SMD,衡量平衡程度,0.1为平衡)从0.8、0.7降至0.05、0.03,完全达到平衡标准。

这种严格平衡让处理效应估计更准确——我们有信心认为,结果差异是处理本身的作用,而非协变量不平衡。

(三)卡尺匹配的局限:样本损失与方差风险

卡尺匹配的严格性也带来局限:样本损失。若卡尺太窄,很多处理组个体找不到匹配对象,不得不被丢弃,导致有效样本量减少。样本量越少,处理效应估计的方差越大(结果越不稳定)。

比如,处理组1000个个体,用0.1σ卡尺匹配后仅保留600个(样本率60%);用0.2σ卡尺匹配,样本率提升至85%,但倾向得分差异容忍度更高,残余偏差略有增加。这形成“偏差-样本量”权衡:卡尺越窄,偏差越小但样本越少;卡尺越宽,样本越多但偏差越大。

此外,卡尺宽度的设定是主观的——没有统一标准,不同宽度可能导致结果差异(如卡尺从0.1σ增至0.3σ,处理效应估计值从1.2万增至1.5万),影响结果稳健性。

三、核匹配的原理、操作与特点

(一)核匹配的核心定义与非参数逻辑

核匹配是“非参数加权匹配”,核心逻辑是:不为处理组个体找“一对一”匹配对象,而是加权平均所有控制组个体的结果作为反事实结果。权重取决于处理组与控制组个体的倾向得分距离——距离越近,权重越大;距离越远,权重越小。

文档评论(0)

1亿VIP精品文档

相关文档