双重机器学习DML介绍

本文参考:
[1]文心一言回答;

一、核心原理与数学框架

双重机器学习(Double Machine Learning, DML)由Chernozhukov等学者于2018年提出,是一种结合机器学习与传统计量经济学的因果推断框架。其核心目标是在高维数据和非线性关系下,无偏估计处理变量(如政策、治疗)对结果变量(如收入、健康)的因果效应。

1. 基本模型设定

DML通常基于部分线性模型(Partially Linear Model, PLR):
在这里插入图片描述

2. 核心步骤:两阶段残差回归

在这里插入图片描述

3. 关键技术:交叉拟合与正交化

在这里插入图片描述

4.DML的优势

处理高维数据:通过机器学习自动筛选重要协变量,避免“维度诅咒”。
非线性关系建模:支持随机森林、神经网络等非线性模型,适应复杂数据结构。
稳健性:交叉拟合和正交化技术降低过拟合风险,确保估计无偏。

二、DML无偏的数学原理

1.数学框架:部分线性模型(PLR)

DML的核心基于以下部分线性模型:
在这里插入图片描述

2. 正交化:剥离协变量影响

步骤1:残差化处理

在这里插入图片描述

步骤2:残差回归

在这里插入图片描述

3. Cross-fitting:避免过拟合

在这里插入图片描述

4.Neyman正交性:对模型偏误不敏感

在这里插入图片描述

5. 关键点总结

正交化:通过残差化剥离协变量X的影响,确保T~ 和 Y~ 与X正交。
交叉拟合:避免过拟合,提高估计的稳健性。
Neyman正交性:对第一阶段模型偏误不敏感,保证无偏性。
机器学习灵活性:支持非线性模型(如随机森林、神经网络),适应复杂数据结构。

三、DML的双重稳健体现

双重机器学习(DML)的“双重稳健”性体现在其对两种独立误差来源的稳健性,以及通过正交化与交叉拟合技术实现的双重保障。以下是具体体现:
对第一阶段模型偏误的稳健性:即使第一阶段模型存在误差,只要满足正交性条件,第二阶段估计仍无偏。
对模型选择的稳健性:无论使用线性还是非线性模型,只要正确应用正交化和交叉拟合,估计量都是无偏的。
交叉拟合的双重保障:通过样本分割和交叉验证,避免过拟合并提高稳健性。

3.1.对第一阶段模型偏误的稳健性

DML的核心思想是通过两阶段残差回归剥离协变量X的影响。其双重稳健性首先体现在:即使第一阶段模型(用于拟合Y和T关于X的预测值)存在误差,只要满足正交性条件,第二阶段的估计仍能保持无偏。
在这里插入图片描述
在这里插入图片描述

3.2.对模型选择的稳健性

DML的双重稳健性还体现在:无论使用线性模型还是非线性机器学习模型,只要正确应用正交化和交叉拟合,估计量都是无偏的。

3.3.交叉拟合的双重保障

DML通过交叉拟合(Cross-fitting)技术进一步强化了稳健性:
在这里插入图片描述

3.4.数学证明:Neyman正交性

DML的双重稳健性可严格证明为Neyman正交性:
在这里插入图片描述

四、Neyman正交

Neyman正交性(Neyman Orthogonality)是统计学和计量经济学中的一个核心概念,尤其在因果推断和双重机器学习(DML)中扮演关键角色。其核心思想是确保估计量对第一阶段模型偏误不敏感,从而保证估计的无偏性。以下是详细解释:

4.1.定义与数学表达

在这里插入图片描述

4.2.核心意义

Neyman正交性确保了以下两点:
在这里插入图片描述

4.3.在DML中的作用

在双重机器学习中,Neyman正交性通过以下步骤实现:
在这里插入图片描述

4.4.直观理解

Neyman正交性可理解为一种“双重保护”:
在这里插入图片描述
总结
Neyman正交性是双重机器学习(DML)无偏性的核心数学保障。它通过要求估计量对第一阶段模型的偏误“不敏感”,并结合正交化和交叉拟合技术,确保了在高维数据和非线性场景下因果效应的准确估计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/919733.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/919733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【图像算法 - 21】慧眼识虫:基于深度学习与OpenCV的农田害虫智能识别系统

摘要: 在现代农业生产中,病虫害是影响作物产量和品质的关键因素之一。传统的害虫识别依赖人工巡查,效率低、成本高且易出错。本文将介绍如何利用深度学习与OpenCV构建一套高效的农田害虫智能识别系统。该系统能够自动识别10类常见农业害虫&a…

循环神经网络实战:GRU 对比 LSTM 的中文情感分析(三)

循环神经网络实战:GRU 对比 LSTM 的中文情感分析(三) 文章目录循环神经网络实战:GRU 对比 LSTM 的中文情感分析(三)前言数据准备(与 LSTM 相同)模型搭建(GRU)…

学习游戏制作记录(制作提示框以及使用键盘切换UI)8.21

1.制作装备提示框创建提示框,添加文本子对象,用来描述名称,类型以及属性加成挂载垂直分配组件和文本大小适配组件,这样图像会根据文本大小来调整自己创建UI_ItemTip脚本并挂载在文本框上:[SerializeField] private Tex…

chapter07_初始化和销毁方法

一、简介 一个Bean,在进行实例化之后,需要进行两种初始化 初始化属性,由PropertyValues进行赋值初始化方法,由ApplicationContext统一调用,例如加载配置文件 Bean的初始化与销毁,共有三种方式(注…

open webui源码分析6-Function

一、Functions简介 可以把Tools作为依赖于外部服务的插件,Functions就是内部插件,二者都是用来增强open webui的能力的。Functions是轻量的,高度可定制的,并且是用纯Python编写的,所以你可以自由地创建任何东西——从新…

C2039 “unref“:不是“osgEarth::Symbology::Style”的成员 问题分析及解决方法

在osgEarth2.10中实现多线段连续测量功能时,遇到下图中的错误; 经过测试和验证,主要问题出现在下图圈出代码的定义上 图22-1 对于22-1中的两个变量这样定义是错误的。因为Style类没有继承自osg::Referenced,因此不能与osg::ref_ptr配合使用

GitHub 热榜项目 - 日榜(2025-08-19)

GitHub 热榜项目 - 日榜(2025-08-19) 生成于:2025-08-19 统计摘要 共发现热门项目:12 个 榜单类型:日榜 本期热点趋势总结 本期GitHub热榜呈现三大技术热点:1)AI原生开发持续爆发,Archon OS、Parlant等…

ingress 配置ssl证书

模拟环境举例&#xff1a; # 生成带 OU 的证书配置文件 cat > csr.conf <<EOF [ req ] default_bits 2048 prompt no default_md sha256 distinguished_name dn[ dn ] C CN ST Beijing L Beijing O YourCompany, Inc. # 组织名称 (必填) OU DevOps De…

Pandas 合并数据集:concat 和 append

文章目录Pandas 合并数据集&#xff1a;concat 和 append回顾&#xff1a;NumPy 数组的拼接使用 pd.concat 进行简单拼接重复索引将重复索引视为错误忽略索引添加多级索引&#xff08;MultiIndex&#xff09;键使用连接&#xff08;Join&#xff09;方式拼接append 方法Pandas …

2025年5月架构设计师综合知识真题回顾,附参考答案、解析及所涉知识点(七)

本文主要回顾2025年上半年(2025-5-24)系统架构设计师考试上午综合知识科目的选择题,同时附带参考答案、解析和所涉知识点。 2025年5月架构设计师综合知识真题回顾,附参考答案、解析及所涉知识点(一) 2025年5月架构设计师综合知识真题回顾,附参考答案、解析及所涉知识点(…

面向RF设计人员的微带贴片天线计算器

微带贴片天线和阵列可能是仅次于单极天线和偶极天线的最简单的天线设计。这些天线也很容易集成到PCB中&#xff0c;因此通常用于5G天线阵列和雷达等高级系统。这些天线阵列在基谐模式和高阶模式下也遵循一组简单的设计方程&#xff0c;因此您甚至可以在不使用仿真工具的情况下设…

明基RD280U编程显示器深度测评:码农的「第二块键盘」竟然会发光?

文章目录前言一、开箱篇&#xff1a;当理工男遇到「俄罗斯套娃式包装」二、外观篇&#xff1a;深空灰的「代码容器」1. 桌面变形记2. 保护肩颈的人体工学设计三、显示篇&#xff1a;给代码做「光子嫩肤」1. 28寸超大大屏 3:2屏比 4K超清2.专业编程模式&#xff0c;让代码一目…

算法114. 二叉树展开为链表

题目&#xff1a;给你二叉树的根结点 root &#xff0c;请你将它展开为一个单链表&#xff1a; 展开后的单链表应该同样使用 TreeNode &#xff0c;其中 right 子指针指向链表中下一个结点&#xff0c;而左子指针始终为 null 。 展开后的单链表应该与二叉树 先序遍历 顺序相同。…

智慧能源管理系统:点亮山东零碳园区的绿色引擎

一、概述在全球积极践行“双碳”目标的时代浪潮下&#xff0c;山东作为经济大省&#xff0c;正全力推动产业的绿色变革&#xff0c;零碳园区建设成为其中的关键一环。《山东省零碳园区建设方案》明确规划&#xff0c;到2027年建成15个左右省级零碳园区 &#xff0c;到2030年进一…

分布式日志分析平台(ELFK 与 EFK)理论

一、日志分析平台核心概念在分布式系统中&#xff0c;日志是系统运行状态监控、问题排查和业务分析的重要依据。随着系统规模扩大&#xff0c;单机日志管理方式已无法满足需求&#xff0c;分布式日志分析平台应运而生。其核心目标是实现日志的集中收集、统一处理、高效存储和可…

CoreShop微信小程序商城框架开启多租户-添加一个WPF客户端以便进行本地操作--读取店铺信息(6)

本节内容&#xff0c;使用登录的token进行店铺信息读取&#xff0c;顺利的话&#xff0c;进行EXCEL上传测试。 1。在后台编写 读取店铺信息代码 1.1 查看原来铺店信息在什么位置&#xff0c;店铺的表格为CoreCmsStore#region 获取列表// POST: Api/CoreCmsStore/GetPageList///…

UE5关卡蓝图能不能保存副本呀?

提问 关卡蓝图能不能保存副本呀&#xff1f; 回答 在 UE 里&#xff0c;“关卡蓝图&#xff08;Level Blueprint&#xff09;”本身其实是不能直接复制/保存成独立资源的&#xff0c;因为它和具体的 **Level&#xff08;.umap 文件&#xff09;**是绑定的——相当于一个“场景脚…

机器学习数据预处理学习报告

一、学习背景与目的在机器学习流程中&#xff0c;数据预处理是保障模型训练效果的关键环节。原始数据常存在缺失值、量纲不一致、特征格式不匹配等问题&#xff0c;直接影响模型对数据规律的学习。本次学习围绕 Pandas 与 Scikit-learn&#xff08;sklearn&#xff09;工具库&a…

git旧仓库迁移到新仓库

git旧仓库迁移到新仓库 A仓库(旧仓库)&#xff1a;git172.16.21.21:xxxx_software/Ni-Handler-Mgr.git B仓库(新仓库)&#xff1a;git172.16.11.11:yyyy/hostpc/ni-handler-mgr.git Step1 新建新仓库 创建新 GitHub 仓库‌ 在 GitHub 页面点击 “New repository”&#xff0c;命…

YOLO --- YOLOv5模型以及项目详解

YOLO — YOLOv5模型以及项目详解 文章目录YOLO --- YOLOv5模型以及项目详解一&#xff0c;开源地址二&#xff0c;改进点Focus 模块三&#xff0c;网络结构3.1 CSP1_X 与 CSP2_X3.2 自适应Anchor的计算3.3 激活函数3.3.1 SiLU3.3.2 Swish3.4 Bottleneck3.5 C33.5.1 BottleneckC…