- 3
- 0
- 约5.72千字
- 约 12页
- 2026-01-07 发布于上海
- 举报
倾向得分匹配法的偏差来源与修正
一、倾向得分匹配法的核心逻辑与偏差问题的提出
(一)倾向得分匹配法的基本原理与应用价值
在观察性研究中,研究者往往无法通过随机分配控制处理组与控制组的基线差异(即“选择偏差”)——例如,评估“职业培训对就业的影响”时,主动参与培训的个体可能本身更积极、更有学习意愿,这些特征既影响“是否参与培训”(处理变量),也影响“就业结果”(结果变量)。直接比较培训者与未培训者的就业概率,会高估培训的真实效应。
倾向得分匹配法(PSM)的出现,为解决这一问题提供了关键思路:它通过估计每个个体接受处理的概率(倾向得分),将处理组个体与倾向得分相近的控制组个体匹配,从而平衡两组的基线特征(如年龄、性别、教育水平),使处理效应的估计更接近随机对照试验(RCT)的“无偏”结果。例如,若一个培训参与者的倾向得分是0.6(即有60%的概率参与培训),PSM会为其匹配控制组中倾向得分0.58-0.62的未参与者——此时两组的“积极性”“学习意愿”等特征差异被大幅缩小,再比较就业概率的差异,就能更准确反映培训的真实效应。
正是这种“平衡基线、分离因果”的能力,让PSM成为经济学、公共卫生、社会学等领域观察性研究的“标配”方法。从“教育对收入的影响”到“医保政策对医疗支出的作用”,从“环保政策对企业绩效的效果”到“疫苗接种对发病率的降低”,PSM都在帮助研究者从复杂的观察性数据中提取因果信号。
(二)偏差问题的现实性与研究意义
然而,PSM并非“万能药”——实际应用中,即使严格遵循匹配流程,仍可能因各种原因产生偏差。这些偏差若未被识别和修正,不仅会误导研究结论,还可能影响政策制定的科学性。
例如,某研究用PSM评估“新农合保险对农民医疗支出的影响”,结果显示参保农民的医疗支出比未参保者低15%。但后续分析发现,研究中未纳入“家庭储蓄水平”这一变量:储蓄水平高的家庭更可能参保,同时储蓄水平高的家庭更有能力支付医疗费用(反而可能降低医疗支出)。由于“家庭储蓄”未被纳入倾向得分模型,匹配后的样本仍存在储蓄水平差异,导致估计的“新农合对医疗支出的抑制效应”被高估了5个百分点。
再比如,某公共卫生研究用PSM评估“流感疫苗接种对流感发病率的影响”,结果显示接种者的发病率比未接种者低20%。但敏感性分析发现,若存在一个未观测变量“健康意识”(健康意识高的人更可能接种疫苗,同时更注意个人防护),只需该变量使接种概率增加1.2倍,就能抵消疫苗的保护效应——这说明结果对未观测变量非常敏感,结论的可靠性存疑。
这些案例充分说明:PSM的偏差问题是实际应用中的普遍现象,系统剖析偏差来源并提出修正策略,是提升观察性研究质量的关键。
二、倾向得分匹配法的主要偏差来源
PSM的偏差本质上源于“匹配的不完全性”——无论是可观测变量的遗漏、未观测变量的存在,还是模型设定的错误,最终都会导致处理组与控制组在匹配后仍存在基线差异。具体而言,偏差主要来自以下四类:
(一)基于可观测变量的匹配不完全偏差
PSM的核心假设是“条件独立假设(CIA)”:给定可观测变量(协变量),处理状态与结果变量独立。但在实际应用中,“匹配不完全”往往发生在两个层面:
可观测变量的遗漏:研究者未能将所有影响处理状态和结果变量的协变量纳入模型。例如,研究“教育对收入的影响”时,若仅纳入年龄、性别、地区,而遗漏“父母教育水平”(父母教育既影响子女是否上大学,也影响子女的收入),匹配后的样本仍存在父母教育水平差异,导致“教育对收入的提升效应”被高估。
倾向得分估计不准确:即使纳入了所有协变量,若倾向得分的估计模型与真实数据生成过程不符,仍会导致匹配后的样本在协变量上存在差异。例如,用logistic回归估计倾向得分时,若“年龄”对“是否上大学”的影响是“先增后减”(非线性),而模型未捕捉到这种关系,会导致倾向得分估计值与真实值偏差较大。比如,一个25岁个体的真实倾向得分是0.7(很可能上大学),但模型估计为0.5,匹配的控制组个体是倾向得分0.5的非大学生——匹配后的样本在“年龄”上的差异未被完全消除,进而影响收入差异的估计。
(二)未观测混杂变量引发的隐变量偏差
未观测混杂变量是PSM最“棘手”的偏差来源,它直接违反CIA假设。所谓“未观测混杂变量”,是指同时影响处理状态和结果变量,但未被纳入研究的变量。例如:
研究“教育对收入的影响”时,“个体能力”是未观测变量——能力强的人更可能上大学,同时能力强的人收入更高;
研究“医疗干预对健康的影响”时,“服药依从性”是未观测变量——依从性高的患者更可能接受新疗法,同时依从性高的患者健康恢复更好;
研究“政策对企业绩效的影响”时,“企业管理水平”是未观测变量——管理水平高的企业更可能参与政策试点,同时管理水平高的企业绩效更好。
由于这些变量未被观
您可能关注的文档
- 2025年价格鉴证师考试题库(附答案和详细解析)(1220).docx
- 2025年咖啡师考试题库(附答案和详细解析)(1226).docx
- 2025年注册矿业工程师考试题库(附答案和详细解析)(1214).docx
- 2025年注册翻译专业资格(CATTI)考试题库(附答案和详细解析)(1214).docx
- 2025年碳金融分析师考试题库(附答案和详细解析)(1229).docx
- 2025年老年照护师考试题库(附答案和详细解析)(1230).docx
- 2025年职业生涯规划师考试题库(附答案和详细解析)(1216).docx
- 2026年AI产品经理考试题库(附答案和详细解析)(0101).docx
- 2026年基因数据解读师考试题库(附答案和详细解析)(0101).docx
- A股又诞生一只10倍股.docx
- 宣贯培训(2026年)《NYT 3723-2020植物品种特异性(可区别性)、一致性和稳定性测试指南 姜花属》.pptx
- 宣贯培训(2026年)《SCT 1080.1-2006建鲤养殖技术规范 第1部分:亲鱼》.pptx
- 宣贯培训(2026年)《SCT 1080.4-2006建鲤养殖技术规范 第4部分:鱼苗、鱼种培育技术》.pptx
- 宣贯培训(2026年)《SCT 5025-2006刺网用硬质塑料浮子》.pptx
- 宣贯培训(2026年)SNT 5518-2023出口植物源食品中棉隆及其代谢物残留量的测定 气相色谱-质谱质谱法》.pptx
- 宣贯培训(2026年)YDT 3791-2020基于LTE技术的宽带集群通信(B-TrunC)系统(第二阶段)接口测试方法 集群基站与集群核心网间接口.pptx
- 宣贯培训(2026年)《SFT 0164-2023监狱信息化 软件开发总体技术规范》.pptx
- 宣贯培训(2026年)《YDT 3807-2020移动通信网络设备安全保障通用要求》.pptx
- 宣贯培训(2026年)《HB 8546-2018民用飞机燃油箱重力加油口组件规范》.pptx
- 宣贯培训(2026年)《HB 8548-2019航空用1.905MM间距二排矩形电连接器 插头》.pptx
最近下载
- 2025年四川省从“五方面人员”中选拔乡镇领导班子成员考试历年参考题库含答案详解.docx VIP
- 高中生谈恋爱的危害.docx VIP
- 生产主管岗位月度KPI绩效考核表.docx VIP
- 十五五时期国家教育发展规划.docx
- 《托育机构环境创设》完整全套教学课件.pdf VIP
- 2026春桂美版2024小学美术二年级下册每课教案(附目录).docx VIP
- 校本教材陜北秧歌内容(下).doc VIP
- 传感器技术及其应用第2版作者陈黎敏2温度传感器课件.ppt VIP
- 2024年安徽机电职业技术学院单招职业技能测试题库及答案(各地真题).docx VIP
- 第2单元第1课《观照自然》课件+2025-2026学年人美版初中美术七年级下册.pptx VIP
原创力文档

文档评论(0)