倾向得分匹配法的卡尺匹配与半径选择.docxVIP

下载本文档

0
0
约5.99千字
约 13页
2025-12-30 发布于江苏
举报
版权申诉

倾向得分匹配法的卡尺匹配与半径选择.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

倾向得分匹配法的卡尺匹配与半径选择

一、倾向得分匹配法与卡尺匹配的基础逻辑

在社会科学研究中，因果推断是核心目标——我们想知道“某个处理（如接受教育、使用药物、参加培训）是否真的导致了结果（如收入提高、健康改善、创业成功）”。但现实中，随机对照实验（如把研究对象随机分到处理组和控制组）往往难以实现（比如不能强迫他人退学或停药），这就会产生选择偏差：处理组和控制组在可观测特征上本来就存在差异（比如上大学的人可能本来就更聪明、家庭条件更好），直接比较两组结果会混淆“处理的效应”和“特征差异的效应”。

倾向得分匹配法（PSM）正是为解决这一问题而生的统计工具。而卡尺匹配是PSM中最关键的匹配策略之一，半径选择则是卡尺匹配的核心——它决定了“什么样的样本才算‘相似’”，直接影响匹配质量与因果推断的可靠性。

（一）倾向得分匹配法的核心逻辑

倾向得分匹配法的本质，是用倾向得分（即样本进入处理组的概率）来“浓缩”所有可观测特征的信息，再通过匹配倾向得分相近的处理组与控制组样本，模拟随机实验的平衡状态。

具体来说，假设我们要研究“上大学对收入的影响”：

步骤1：估计倾向得分——用可观测特征（如家庭收入、高中成绩、性别、年龄）建立模型，预测每个样本“上大学的概率”（即倾向得分）。比如，一个家庭收入高、高中成绩好的样本，倾向得分可能是0.8（有80%的概率上大学）；而家庭收入低、成绩一般的样本，倾向得分可能是0.3（有30%的概率上大学）。

步骤2：匹配相似样本——为每个处理组样本（上大学的人）找一个或多个控制组样本（没上大学的人），要求两者的倾向得分尽可能接近。比如，处理组中有个样本的倾向得分是0.5，我们就找控制组中倾向得分在0.5左右的样本，这样匹配后的两组在家庭收入、成绩等特征上就会“平衡”——因为倾向得分已经综合了这些特征的信息。

简言之，PSM的核心是用“倾向得分的相似”替代“所有特征的相似”，从而消除选择偏差，让我们能更准确地估计处理的因果效应。

（二）卡尺匹配的定义与价值

虽然PSM的逻辑清晰，但“如何定义‘相似’”是个关键问题。如果只找“最接近”的控制组样本（即“最近邻匹配”），可能会遇到这样的情况：处理组样本的倾向得分是0.4，而控制组中“最接近”的样本倾向得分是0.6（差距0.2）——虽然这是“最接近”的，但两者的特征差异其实很大（比如一个是家庭条件一般的学生，一个是家庭条件很好的学生），这样的匹配会导致“差匹配”，反而引入新的偏差。

卡尺匹配（CaliperMatching）就是为解决这个问题而设计的。它的规则很简单：为每个处理组样本的倾向得分设定一个“允许的最大差距”（即“半径”），只有控制组样本的倾向得分落在这个半径内，才能与之匹配。比如，半径设为0.05，那么处理组样本的倾向得分是0.4时，只有控制组中倾向得分在0.35-0.45之间的样本才能匹配。

卡尺匹配的价值，在于对匹配质量的“硬约束”：它强制排除那些倾向得分差距过大的样本，确保匹配对的“相似性”。比如，在研究“创业培训对创业成功率的影响”时，处理组是参加培训的人，控制组是没参加的人——如果用最近邻匹配，可能会把一个“本来就有资源、想创业”的控制组样本（倾向得分0.7）和一个“资源少、不想创业”的处理组样本（倾向得分0.4）匹配（因为这是“最接近”的）；但用卡尺匹配（半径0.05），这个控制组样本会被排除，因为倾向得分差距（0.3）超过了半径，从而避免了“差匹配”的问题。

可以说，卡尺匹配是PSM的“质量守门员”——没有卡尺的约束，PSM很可能变成“为匹配而匹配”，失去消除选择偏差的作用。

二、卡尺匹配中半径选择的核心问题

卡尺匹配的关键是半径选择：半径太大，会引入特征差异大的样本，导致匹配不平衡；半径太小，会损失太多样本，降低统计效力（即无法检测到真实的处理效应）。这是一个典型的“两难困境”，需要在“匹配质量”与“样本量”之间找到平衡。

（一）半径选择的两难：匹配质量vs样本量

半径大小的影响可以用一个简单的例子说明：假设我们研究“课后辅导对考试成绩的影响”，处理组是参加辅导的学生（n=100），控制组是没参加的学生（n=500），倾向得分范围是0.1-0.9。

情况1：半径设为0.1——处理组有90个样本能找到匹配（匹配率90%），但匹配后发现，处理组学生的家庭辅导资源均值是4分（满分5分），控制组是3分（p=0.02），差异显著（即特征不平衡）。这是因为半径太大，允许了倾向得分差距大的样本（比如处理组倾向得分0.4，控制组0.5），这些样本的家庭资源本来就不一样。

情况2：半径设为0.02——处理组只有40个样本能找到匹配（匹配率40%），但匹配后家庭辅导资源的均值差异是0.2分（p=0.5），不显著（特征平衡）。但样本量太少，统计效力低，可能无法

您可能关注的文档

文档评论（0）

182****1636 + 关注: 实名认证

文档贡献者

教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2025年12月12日上传了教师资格证

1亿VIP精品文档

更多 >

倾向得分匹配法的卡尺匹配与半径选择.docxVIP