双重稳健估计(Double Machine Learning).pdf

下载文档

4
0
约3.09千字
约 3页
2025-03-27 发布于上海
举报
版权申诉
保障服务

双重稳健估计(Double Machine Learning).pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

双双重重稳稳健健估估计计（（DoubleMachineLearning））的的核核心心原原理理与与

应应用用解解析析

双重稳健估计（DoubleMachineLearning，DML）是近年来因果推断和计量经济领域的重要进展之一。它通过结合机器

习模型与传统统计方法，解决了传统因果效应估计中模型设定敏感性和高维数据处理的难题。本文将从理论基础、算法实现、

应用场景、优势与局限性等多个维度，系统解析DML的核心思想与实践价值。

一一、、双双重重稳稳健健估估计计的的理理论论基基础础

1.1因因果果推推断断的的基基本本问问题题

在因果推断中，核心目标是估计处理效应（TreatmentEffect），例如药物对患者的疗效、政策对经济的影响等。传统方法如

线性回归或倾向得分匹配（PropensityScoreMatching）依赖于强假设：

条件独立性假设（CIA）：给定协变量后，处理变量与潜在结果独立。

模型正确性假设：回归模型或倾向得分的函数形式设定正确。

然而，实际场景中这些假设常不成立：协变量可能高维或存在复杂交互，模型误设会导致估计偏差。

1.2双双重重稳稳健健性性的的提提出出

双重稳健估计的核心思想源于增强逆概率加权法（AIPW），其核心特征是：只要倾向得分模型或结果模型中有一个正确，估

计量即具有一致性。DML将这一思想与机器习结合，通过正交化（Orthogonaliation）和样本分割（SampleSplitting）技

术，进一步提升了估计的鲁棒性。

二二、、DML的的核核心心算算法法流流程程

2.1模模型型设设定定

假设观测数据为${Y_i,D_i,X_i}_{i=1}^n$，其中：

$Y_i$：结果变量（如收入）

$D_i$：处理变量（如是否参与培训项目）

$X_i$：协变量（如年龄、教育程度等）

目标参数为条件平均处理效应（CATE）：$\theta=\mathbb{E}[Y(1)Y(0)|X]$，或平均处理效应（ATE）。

2.2算算法法步步骤骤

步骤1：样本分割

将数据随机分为两个子样本（如训练集和估计集），避免过拟合导致的偏差。

步骤2：第一阶段——机器习建模

使用训练集拟合两个模型：

1.处理模型：估计处理变量$D$对协变量$X$的依赖关系，例如通过随机森林或神经网络预测倾向得分$g(X)=\mathbb{E}

[D|X]$。

2.结果模型：估计结果变量$Y$对协变量$X$的依赖关系，例如通过回归模型预测$\mu(X)=\mathbb{E}[Y|X]$。

步骤3：正交化（残差构造）

在估计集上计算处理变量和结果变量的残差：

$D$的残差：$\tilde{D}=D\hat{g}(X)$

$Y$的残差：$\tilde{Y}=Y\hat{\mu}(X)$

步骤4：第二阶段——效应估计

通过回归模型估计处理效应：

$$\theta=\arg\min_{\theta}\mathbb{E}[(\tilde{Y}\theta\tilde{D})^2]$$

解为：$\hat{\theta}=\frac{\mathbb{E}_n[\tilde{D}\tilde{Y}]}{\mathbb{E}_n[\tilde{D}^2]}$

三三、、DML的的关关键键创创新新点点

3.1正正交交化化与与局局部部回回归归

正交化通过残差剥离了协变量$X$对$D$和$Y$的影响，使得处理效应估计仅依赖于$D$与$Y$的局部变化。即使处理模型或结

果模型存在误设，只要其中一个模型正确，估计量仍具有一致性。

3.2样样本本分分割割与与交交叉叉拟拟合合

样本分割：将数据分为训练集（建模）和估计集（计算残差），避免同一数据同时用于建模和估计导致的过拟合。

交叉拟合（Cross-fitting）：交换训练集与估计集的角色，重复估计并取平均，提升估计效率。

3.3灵灵活活使使用用机机器器习习模模型型

DML允许使用任意机器习算法（如梯度提升树、神经网络）拟合处理模型和结果模型，从而更好地处理高维数据和非线性

关系。

四四、、DML的的实实际际应应用用场场景景

4.1政政策策评评估估与与经经济济研研究究

案例：评估最低工资政策对就业率的影响。传统方法可能因遗漏变量（如地区经济结构）导致偏差，DML可通过控制数百个

协变量（如产业分布、人口结构）提升估计准确性。

4.2医医疗疗效效果果评评估估

案例：分析新药对患者康复率的影响。DML可处理患者的复杂病历数据（如基因表达、病史），并避免

您可能关注的文档

文档评论（0）

eureka + 关注: 实名认证

内容提供者

好好学习，天天向上

咨询Ta 进入空间

1亿VIP精品文档

更多 >

双重稳健估计(Double Machine Learning).pdf