倾向得分匹配法的卡尺匹配与半径选择.docxVIP

倾向得分匹配法的卡尺匹配与半径选择.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

倾向得分匹配法的卡尺匹配与半径选择

一、倾向得分匹配法与卡尺匹配的基础逻辑

在社会科学研究中,因果推断是核心目标——我们想知道“某个处理(如接受教育、使用药物、参加培训)是否真的导致了结果(如收入提高、健康改善、创业成功)”。但现实中,随机对照实验(如把研究对象随机分到处理组和控制组)往往难以实现(比如不能强迫他人退学或停药),这就会产生选择偏差:处理组和控制组在可观测特征上本来就存在差异(比如上大学的人可能本来就更聪明、家庭条件更好),直接比较两组结果会混淆“处理的效应”和“特征差异的效应”。

倾向得分匹配法(PSM)正是为解决这一问题而生的统计工具。而卡尺匹配是PSM中最关键的匹配策略之一,半径选择则是卡尺匹配的核心——它决定了“什么样的样本才算‘相似’”,直接影响匹配质量与因果推断的可靠性。

(一)倾向得分匹配法的核心逻辑

倾向得分匹配法的本质,是用倾向得分(即样本进入处理组的概率)来“浓缩”所有可观测特征的信息,再通过匹配倾向得分相近的处理组与控制组样本,模拟随机实验的平衡状态。

具体来说,假设我们要研究“上大学对收入的影响”:

步骤1:估计倾向得分——用可观测特征(如家庭收入、高中成绩、性别、年龄)建立模型,预测每个样本“上大学的概率”(即倾向得分)。比如,一个家庭收入高、高中成绩好的样本,倾向得分可能是0.8(有80%的概率上大学);而家庭收入低、成绩一般的样本,倾向得分可能是0.3(有30%的概率上大学)。

步骤2:匹配相似样本——为每个处理组样本(上大学的人)找一个或多个控制组样本(没上大学的人),要求两者的倾向得分尽可能接近。比如,处理组中有个样本的倾向得分是0.5,我们就找控制组中倾向得分在0.5左右的样本,这样匹配后的两组在家庭收入、成绩等特征上就会“平衡”——因为倾向得分已经综合了这些特征的信息。

简言之,PSM的核心是用“倾向得分的相似”替代“所有特征的相似”,从而消除选择偏差,让我们能更准确地估计处理的因果效应。

(二)卡尺匹配的定义与价值

虽然PSM的逻辑清晰,但“如何定义‘相似’”是个关键问题。如果只找“最接近”的控制组样本(即“最近邻匹配”),可能会遇到这样的情况:处理组样本的倾向得分是0.4,而控制组中“最接近”的样本倾向得分是0.6(差距0.2)——虽然这是“最接近”的,但两者的特征差异其实很大(比如一个是家庭条件一般的学生,一个是家庭条件很好的学生),这样的匹配会导致“差匹配”,反而引入新的偏差。

卡尺匹配(CaliperMatching)就是为解决这个问题而设计的。它的规则很简单:为每个处理组样本的倾向得分设定一个“允许的最大差距”(即“半径”),只有控制组样本的倾向得分落在这个半径内,才能与之匹配。比如,半径设为0.05,那么处理组样本的倾向得分是0.4时,只有控制组中倾向得分在0.35-0.45之间的样本才能匹配。

卡尺匹配的价值,在于对匹配质量的“硬约束”:它强制排除那些倾向得分差距过大的样本,确保匹配对的“相似性”。比如,在研究“创业培训对创业成功率的影响”时,处理组是参加培训的人,控制组是没参加的人——如果用最近邻匹配,可能会把一个“本来就有资源、想创业”的控制组样本(倾向得分0.7)和一个“资源少、不想创业”的处理组样本(倾向得分0.4)匹配(因为这是“最接近”的);但用卡尺匹配(半径0.05),这个控制组样本会被排除,因为倾向得分差距(0.3)超过了半径,从而避免了“差匹配”的问题。

可以说,卡尺匹配是PSM的“质量守门员”——没有卡尺的约束,PSM很可能变成“为匹配而匹配”,失去消除选择偏差的作用。

二、卡尺匹配中半径选择的核心问题

卡尺匹配的关键是半径选择:半径太大,会引入特征差异大的样本,导致匹配不平衡;半径太小,会损失太多样本,降低统计效力(即无法检测到真实的处理效应)。这是一个典型的“两难困境”,需要在“匹配质量”与“样本量”之间找到平衡。

(一)半径选择的两难:匹配质量vs样本量

半径大小的影响可以用一个简单的例子说明:假设我们研究“课后辅导对考试成绩的影响”,处理组是参加辅导的学生(n=100),控制组是没参加的学生(n=500),倾向得分范围是0.1-0.9。

情况1:半径设为0.1——处理组有90个样本能找到匹配(匹配率90%),但匹配后发现,处理组学生的家庭辅导资源均值是4分(满分5分),控制组是3分(p=0.02),差异显著(即特征不平衡)。这是因为半径太大,允许了倾向得分差距大的样本(比如处理组倾向得分0.4,控制组0.5),这些样本的家庭资源本来就不一样。

情况2:半径设为0.02——处理组只有40个样本能找到匹配(匹配率40%),但匹配后家庭辅导资源的均值差异是0.2分(p=0.5),不显著(特征平衡)。但样本量太少,统计效力低,可能无法

文档评论(0)

182****1636 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2025年12月12日上传了教师资格证

1亿VIP精品文档

相关文档