倾向得分匹配法的样本匹配质量评估指标.docxVIP

下载本文档

1
0
约4.81千字
约 9页
2026-03-14 发布于上海
举报

倾向得分匹配法的样本匹配质量评估指标.docx

倾向得分匹配法的样本匹配质量评估指标

引言

在因果推断研究中，倾向得分匹配法（PropensityScoreMatching,PSM）是控制选择偏差、估计处理效应的重要工具。其核心逻辑是通过构建倾向得分（即个体接受处理的概率），将处理组与对照组中倾向得分相近的样本进行匹配，从而使两组在协变量分布上趋于平衡，最终基于匹配后的样本估计因果效应。然而，匹配过程的质量直接影响研究结论的可靠性——若匹配后的样本仍存在显著的协变量差异，或倾向得分分布重叠不足，即使完成了形式上的匹配，也无法有效消除选择偏差。因此，系统评估匹配质量是PSM应用中不可忽视的关键环节。本文将围绕倾向得分匹配法的样本匹配质量评估指标展开，从协变量平衡度、倾向得分分布重叠性、模型预测效果、匹配稳定性等维度，详细阐述各类评估指标的内涵、应用逻辑及实践要点。

一、协变量平衡度评估：匹配质量的基础保障

协变量平衡度是评估匹配质量的核心指标。倾向得分匹配的本质是通过平衡协变量分布来模拟随机实验，若匹配后处理组与对照组在关键协变量上仍存在显著差异，说明匹配过程未能有效控制选择偏差，后续因果效应估计的准确性将大打折扣。协变量平衡度的评估需覆盖连续型变量与分类变量，常用指标包括标准化差异、百分位数比较、卡方检验等。

（一）标准化差异：量化协变量差异的通用工具

标准化差异（StandardizedMeanDifference,SMD）是衡量两组连续型变量均值差异的常用指标。其计算逻辑是将处理组与对照组的均值之差除以合并标准差，最终结果以百分比形式呈现。标准化差异的优势在于消除了变量量纲的影响，便于不同协变量间的横向比较。一般认为，标准化差异绝对值小于10%时，可认为该协变量在两组间达到较好平衡；若超过15%，则提示匹配后仍存在显著差异，需调整匹配策略（如扩大匹配半径、增加匹配变量等）。

例如，在评估患者年龄的平衡度时，若匹配前处理组均值为55岁、对照组为48岁，合并标准差为10岁，则标准化差异为（55-48）/10=70%，说明年龄分布差异极大；匹配后若处理组均值为52岁、对照组为51岁，合并标准差仍为10岁，则标准化差异降至10%，达到可接受水平。需要注意的是，标准化差异仅反映均值差异，对于变量分布的其他特征（如方差、偏度）需结合其他指标综合判断。

（二）百分位数比较：全面刻画变量分布特征

仅关注均值平衡可能忽略变量分布的细节差异。例如，两组可能均值相近，但处理组的高龄人群更集中，而对照组的低龄人群更多，此时均值平衡无法反映分布的不均衡。百分位数比较通过对比两组变量在10%、25%、50%、75%、90%等关键分位点的取值，能够更全面地展示变量分布的匹配效果。

以患者住院天数为例，匹配前处理组10%分位数为3天、对照组为2天，50%分位数为7天、对照组为5天，90%分位数为15天、对照组为10天，说明处理组整体住院时间更长；匹配后若各分位数均接近（如处理组10%分位数3天、对照组3天，50%分位数7天、对照组7天，90%分位数15天、对照组14天），则表明变量分布得到有效平衡。实际应用中，可通过绘制分位数-分位数图（Q-Q图）直观展示两组分布的重叠程度，若散点基本沿对角线分布，说明分布高度一致。

（三）卡方检验与似然比检验：分类变量的平衡验证

对于分类变量（如性别、疾病类型），需采用卡方检验或似然比检验评估两组的分布差异。卡方检验通过比较实际频数与期望频数的差异，计算统计量并判断是否拒绝“两组分布无差异”的原假设。若检验结果不显著（通常以p0.05为标准），则认为分类变量在匹配后达到平衡。

例如，评估性别分布时，匹配前处理组男性占比60%、女性40%，对照组男性占比45%、女性55%，卡方检验p值为0.03（小于0.05），说明性别分布存在显著差异；匹配后处理组男性占比52%、女性48%，对照组男性占比50%、女性50%，卡方检验p值为0.78（大于0.05），则认为性别分布已平衡。需要注意的是，分类变量的类别数不宜过多（一般不超过5类），否则检验效能可能下降；对于稀有类别（如某疾病类型占比低于5%），需谨慎解释检验结果。

二、倾向得分分布重叠性评估：匹配合理性的关键约束

倾向得分的分布重叠性是匹配质量的另一重要维度。倾向得分匹配要求处理组与对照组的倾向得分存在足够的重叠区域（即公共支撑区域，CommonSupportRegion），否则匹配仅能在重叠部分进行，未重叠部分的样本需被剔除，否则可能因“外推”导致估计偏差。

（一）公共支撑区域：界定有效匹配范围

公共支撑区域是处理组与对照组倾向得分的交集区间。例如，处理组倾向得分范围为0.2-0.9，对照组为0.1-0.7，则公共支撑区域为0.2-0.7。在匹配过程中，仅能对公共支撑区域内的样本进行匹配，超出该区域的样

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

倾向得分匹配法的样本匹配质量评估指标.docxVIP