倾向得分匹配法（PSM）中卡尺匹配与核匹配的效果比较.docxVIP

下载本文档

0
0
约5.06千字
约 11页
2026-01-28 发布于江苏
举报

倾向得分匹配法（PSM）中卡尺匹配与核匹配的效果比较.docx

倾向得分匹配法（PSM）中卡尺匹配与核匹配的效果比较

一、倾向得分匹配法（PSM）的核心逻辑与匹配方法概述

（一）PSM的起源与因果推断逻辑

在观察性研究中，我们经常需要回答“政策干预是否有效”“教育是否提高收入”这类因果问题。但与随机对照试验（RCT）不同，观察性研究的处理组（如接受干预的个体）和控制组（未接受干预的个体）并非随机分配——个体是否接受处理往往与自身特征相关（比如更有动力的人更可能参加培训）。这种“选择偏差”会导致直接比较两组结果时，把“个体特征的差异”混淆成“处理的效应”，最终得到错误的结论。

倾向得分匹配法（PSM）正是为解决这一问题而生。它的核心思想来自“倾向得分定理”：如果两个个体的倾向得分（即基于协变量特征被分配到处理组的概率）相同，那么他们的协变量分布在处理组和控制组中是平衡的。换句话说，只要我们根据倾向得分匹配，就能消除协变量不平衡带来的选择偏差，从而准确估计处理效应。

倾向得分是一个0到1之间的数值，比如一个学历高、经验丰富的人，被选为培训项目处理组的概率更高，倾向得分更接近1；而学历低、经验少的人，倾向得分更接近0。PSM将多维的协变量平衡问题转化为一维的倾向得分平衡问题，大幅降低了匹配的复杂度——我们不需要逐一平衡每个协变量，只需平衡倾向得分即可。

（二）PSM的关键步骤与匹配方法分类

PSM的实施分为三个关键步骤：

第一步是估计倾向得分：用logit或probit模型，以“是否属于处理组”为因变量，以影响处理分配和结果的协变量（如年龄、性别、学历）为自变量，计算每个个体的倾向得分。

第二步是匹配：根据倾向得分将处理组个体与控制组个体配对，这是PSM的核心环节。

第三步是估计处理效应：计算匹配后处理组与控制组的结果差异，取平均得到处理效应（如ATT，处理组平均处理效应；ATE，平均处理效应）。

常见的匹配方法可分为四类：最近邻匹配（找倾向得分最接近的1个或k个控制组个体）、卡尺匹配（限制倾向得分范围的最近邻匹配）、核匹配（加权平均所有控制组个体）、马氏距离匹配（结合协变量和倾向得分的距离匹配）。其中，卡尺匹配与核匹配因特点鲜明、应用广泛，成为本文的比较重点。

二、卡尺匹配的原理、操作与特点

（一）卡尺匹配的核心定义与操作逻辑

卡尺匹配是“限制范围的最近邻匹配”，核心逻辑是：为每个处理组个体设定一个“卡尺”（倾向得分的允许范围），只在控制组中寻找倾向得分落在卡尺内的个体，再选最接近的1个或k个作为匹配对象；若没有符合条件的控制组个体，则丢弃该处理组个体。

卡尺宽度是关键参数，常用两种设定方式：绝对宽度（如0.05，倾向得分差异不超过0.05）和相对宽度（倾向得分标准差的0.2倍，即卡尺宽度=0.2×σ）。后者来自经验法则——研究发现，0.2σ的卡尺能有效控制偏差，同时避免过度丢弃样本。

举个例子：处理组个体倾向得分0.6，倾向得分标准差0.1，卡尺宽度为0.02（0.2×0.1）。此时，仅在控制组中找倾向得分0.58-0.62的个体，选最接近0.6的作为匹配对象；若没有，则丢弃该处理组个体。

（二）卡尺匹配的优势：严格控制匹配偏差

卡尺匹配的最大优势是严格限制倾向得分差异，从而大幅减少残余偏差。由于卡尺内的个体倾向得分接近，协变量分布也更平衡——比如某就业政策研究中，原始数据处理组平均年龄35岁、学历高中，控制组平均年龄40岁、学历初中；用0.2σ卡尺匹配后，匹配对象平均年龄34.8岁、学历高中，协变量标准化均值差（SMD，衡量平衡程度，0.1为平衡）从0.8、0.7降至0.05、0.03，完全达到平衡标准。

这种严格平衡让处理效应估计更准确——我们有信心认为，结果差异是处理本身的作用，而非协变量不平衡。

（三）卡尺匹配的局限：样本损失与方差风险

卡尺匹配的严格性也带来局限：样本损失。若卡尺太窄，很多处理组个体找不到匹配对象，不得不被丢弃，导致有效样本量减少。样本量越少，处理效应估计的方差越大（结果越不稳定）。

比如，处理组1000个个体，用0.1σ卡尺匹配后仅保留600个（样本率60%）；用0.2σ卡尺匹配，样本率提升至85%，但倾向得分差异容忍度更高，残余偏差略有增加。这形成“偏差-样本量”权衡：卡尺越窄，偏差越小但样本越少；卡尺越宽，样本越多但偏差越大。

此外，卡尺宽度的设定是主观的——没有统一标准，不同宽度可能导致结果差异（如卡尺从0.1σ增至0.3σ，处理效应估计值从1.2万增至1.5万），影响结果稳健性。

三、核匹配的原理、操作与特点

（一）核匹配的核心定义与非参数逻辑

核匹配是“非参数加权匹配”，核心逻辑是：不为处理组个体找“一对一”匹配对象，而是加权平均所有控制组个体的结果作为反事实结果。权重取决于处理组与控制组个体的倾向得分距离——距离越近，权重越大；距离越远，权重越小。

倾向得分匹配法（PSM）中卡尺匹配与核匹配的效果比较.docxVIP

倾向得分匹配法（PSM）中卡尺匹配与核匹配的效果比较.docx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档