两阶段最小二乘法(2SLS)与 工具变量(IV)模型

以下是关于两阶段最小二乘法(2SLS)工具变量(IV)模型关系的系统解析,结合计量经济学理论与论文上下文进行说明:


一、核心关系:2SLS是IV模型的实现方法

1. IV模型:解决内生性的理论框架
  • 目标:估计存在内生性问题的回归模型 yi=xi′β+uiy_i = x_i'\beta + u_iyi=xiβ+uicov(xi,ui)≠0\text{cov}(x_i, u_i) \neq 0cov(xi,ui)=0)。
  • 工具变量要求
    • 相关性cov(zi,xi)≠0\text{cov}(z_i, x_i) \neq 0cov(zi,xi)=0
    • 外生性cov(zi,ui)=0\text{cov}(z_i, u_i) = 0cov(zi,ui)=0
  • 理论解:IV估计量 β^IV=(Z′X)−1Z′y\hat{\beta}_{IV} = (Z'X)^{-1}Z'yβ^IV=(ZX)1Zy(仅适用于 dz=dβd_z = d_\betadz=dβ 的恰好识别场景)。
2. 2SLS:IV模型的普适性算法
  • 作用:将IV估计推广到 dz>dβd_z > d_\betadz>dβ(过度识别)场景。
  • 本质:通过两阶段回归数值等价于IV估计的广义形式:
    β^2SLS=[X′Z(Z′Z)−1Z′X]−1X′Z(Z′Z)−1Z′y \hat{\beta}_{2SLS} = [X'Z(Z'Z)^{-1}Z'X]^{-1}X'Z(Z'Z)^{-1}Z'y β^2SLS=[XZ(ZZ)1ZX]1XZ(ZZ)1Zy
  • 关键结论
    2SLS是IV模型的估计方法,当工具变量数=参数数(dz=dβd_z = d_\betadz=dβ)时,2SLS退化为标准IV估计。

二、2SLS的两阶段本质

1. 第一阶段:净化内生变量
  • 目标:分离 xix_ixi 中与工具变量 ziz_izi 相关的部分(外生成分)。
  • 操作
    回归:xi=zi′δ+vi  ⟹  x^i=zi′δ^ \text{回归:} \quad x_i = z_i'\delta + v_i \implies \hat{x}_i = z_i'\hat{\delta} 回归:xi=ziδ+vix^i=ziδ^
  • 数学意义x^i\hat{x}_ix^ixix_ixi 在工具变量空间上的投影(X^=Z(Z′Z)−1Z′X\hat{X} = Z(Z'Z)^{-1}Z'XX^=Z(ZZ)1ZX)。
2. 第二阶段:替代回归
  • 目标:用“净化”后的 x^i\hat{x}_ix^i 替代原始内生变量 xix_ixi
  • 操作
    回归:yi=x^i′β+εi  ⟹  β^2SLS=(X^′X^)−1X^′y \text{回归:} \quad y_i = \hat{x}_i'\beta + \varepsilon_i \implies \hat{\beta}_{2SLS} = (\hat{X}'\hat{X})^{-1}\hat{X}'y 回归:yi=x^iβ+εiβ^2SLS=(X^X^)1X^y
  • 直观理解
    通过工具变量 ziz_izi 提取 xix_ixi外生变异,阻断内生性传递路径。

示例(教育回报率估计):

  • 第一阶段:用出生季度(ziz_izi)预测受教育年限(xix_ixi
  • 第二阶段:用预测的受教育年限(x^i\hat{x}_ix^i)估计工资方程

三、2SLS与IV模型的数学等价性

1. 恰好识别场景(dz=dβd_z = d_\betadz=dβ
  • 2SLS第二阶段
    β^2SLS=(X^′X^)−1X^′y \hat{\beta}_{2SLS} = (\hat{X}'\hat{X})^{-1}\hat{X}'y β^2SLS=(X^X^)1X^y
  • 代入 X^=Z(Z′Z)−1Z′X\hat{X} = Z(Z'Z)^{-1}Z'XX^=Z(ZZ)1ZX
    β^2SLS=[X′Z(Z′Z)−1Z′X]−1X′Z(Z′Z)−1Z′y \hat{\beta}_{2SLS} = [X'Z(Z'Z)^{-1}Z'X]^{-1}X'Z(Z'Z)^{-1}Z'y β^2SLS=[XZ(ZZ)1ZX]1XZ(ZZ)1Zy
  • 标准IV估计量
    β^IV=(Z′X)−1Z′y(当 dz=dβ 时等价) \hat{\beta}_{IV} = (Z'X)^{-1}Z'y \quad \text{(当 } d_z = d_\beta \text{ 时等价)} β^IV=(ZX)1Zy(当 dz=dβ 时等价)
2. 过度识别场景(dz>dβd_z > d_\betadz>dβ
  • 2SLS优势:自动处理多余工具变量,仍可计算唯一解。
  • IV模型扩展:需结合GMM框架最小化加权矩条件(如论文中的SGMM)。

四、论文中的技术定位

1. 2SLS作为基准方法
  • 对比角色:论文以离线2SLS为基准,凸显SGMM的在线计算优势(见表1-2)。
  • 局限场景
    • 2SLS无法直接处理流数据(需全样本存储)
    • 2SLS在过度识别时统计效率非最优(未使用GMM加权)
2. SGMM对2SLS的改进
维度2SLSSGMM(本文)
数据模式批处理(离线)流数据(在线)
计算复杂度O(ndz2)O(n d_z^2)O(ndz2)(矩阵求逆)O(dz2)O(d_z^2)O(dz2) 每样本(增量更新)
过度识别直接可用但非最优动态优化权重矩阵 WiW_iWi
理论性质一致但渐近方差非最小渐近等价于最优GMM

五、关键概念辨析

术语定义与2SLS的关系
工具变量(IV)满足相关性、外生性的变量 ziz_izi2SLS的实现基础
IV模型结构方程 yi=xi′β+uiy_i = x_i'\beta + u_iyi=xiβ+ui + 矩条件 E[uizi]=0\mathbb{E}[u_i z_i] = 0E[uizi]=02SLS估计的对象
2SLS通过两阶段回归求解IV模型的算法IV模型的估计器
GMM最小化加权矩条件 min⁡βgn(β)′Wngn(β)\min_\beta g_n(\beta)'W_n g_n(\beta)minβgn(β)Wngn(β)2SLS的推广(含最优加权)

总结

  • IV模型是解决内生性问题的理论框架,2SLS是其最常用的估计算法
  • 2SLS通过两阶段回归数值实现IV估计:第一阶段提取内生变量的外生成分,第二阶段进行无偏回归。
  • 论文中,2SLS作为离线基准,而SGMM通过随机近似框架将其扩展至流数据场景,实现高效在线估计。

核心公式回顾
2SLS估计量:
β^2SLS=[X′Z(Z′Z)−1Z′X]−1⏟工具投影X′Z(Z′Z)−1Z′y⏟工具加权 \hat{\beta}_{2SLS} = \color{red}{\underbrace{[X'Z(Z'Z)^{-1}Z'X]^{-1}}_{\text{工具投影}}} \color{blue}{\underbrace{X'Z(Z'Z)^{-1}Z'y}_{\text{工具加权}}} β^2SLS=工具投影[XZ(ZZ)1ZX]1工具加权XZ(ZZ)1Zy
红色部分:工具变量对解释变量的投影
蓝色部分:工具变量对因变量的加权

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/93141.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/93141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

熬夜面膜赛道跑出的新物种

在快节奏的现代生活中,熬夜已成为都市人群的常态,深夜11点后的朋友圈总是一片“失眠”哀嚎。随之而来的是“熬夜肌”问题的激增——暗沉、干燥、屏障受损等诉求催生了庞大的熬夜面膜市场。2025年,中国面膜线上规模已达484亿元,其中…

20250813测试开发岗(凉)面

1. 自我介绍2. 你如何理解测开,你认为测开的工作有哪些3. 测试的时候包括哪些部分4. 就功能层面,你认为需要从那些部分考虑,形成一个完整并可执行的trace(是这个词吧)5. 你了解数据库吗(我说只会比较基础的…

面向Python/C#开发者入门Java与Bukkit API

本教程将以"手持发射器箭矢机枪"功能为例,带你掌握Java语言基础和Bukkit API的核心概念,最终实现自主开发插件。 我们将通过剖析一个实际Java代码文件,逐步解析其运作机制,帮助你顺利将现有编程知识迁移到Java和Bukkit…

从100到0.3美元:GPT-5用价格战血洗大模型赛道

————————— 一、从 100 美元到 0.3 美元:史无前例的效率革命 ————————— 互联网女王 Mary Meeker 在《AI 趋势报告 2025》里写下这组数字: • 训练成本 8 年飙升 2400 倍; • 推理成本 2 年暴跌 99.7%。OpenAI 把“暴跌”推到…

第三十二天(文件操作安全)

文件遍历上传下载删除编辑包含等 $_FILES:PHP中一个预定义的超全局变量,用于在上传文件时从客户端接收文件,并将其保存到服务器上。它是一个包含上传文件信息的数组,包括文件名、类型、大小、临时文件名等信息。 $_FILES"表…

系统集成项目管理工程师【第十一章 规划过程组】规划风险应对、规划采购管理篇

系统集成项目管理工程师【第十一章 规划过程组】规划风险应对、规划采购管理篇 一、规划风险应对:为项目穿上"防护衣" 1. 什么是规划风险应对? 规划风险应对是基于风险量化分析结果,制定可选方案、选择应对策略并商定具体行动的过程…

20250813比赛总结

题目T1.volumeT2.storyT3.treeT4.game预计分数6060030实际分数306000T1.volume 确实是暴力,但我是用数组统计每个可能出现的数,于是3AC 3WA 4TLE。拿到全部分应该直接按照题目模拟。 T2.story 暴力dfs,由于忘记优化所以60pts,而且…

适合物流/应急/工业的对讲机,AORO M6 Pro构建高效指挥调度方案

在物流调度、应急救援与工业协同等对通信可靠性要求极高的领域中,专业对讲设备的技术迭代直接关系到任务执行效率与安全保障。AORO M6 Pro对讲机作为新一代融合通信终端,正以多模融合技术与国产化自主创新,为复杂场景下的高效调度提供坚实的技…

类和对象----中

这里写目录标题<font color"#FF00FF">1. 类和对象(中)<font color"#FF00FF">2. 构造函数<font color"#FF00FF">3. 析构函数<font color"#FF00FF">4. 拷⻉构造函数1. 类和对象(中) 类的默认成员函数&#xff1…

CAD 的 C# 开发中,对多段线(封闭多边形)内部的点进行 “一笔连线且不交叉、不出界

本质上是约束条件下的路径规划问题&#xff0c;核心是找到一条连续路径遍历所有点&#xff0c;同时满足&#xff1a; 路径不与自身交叉&#xff1b; 路径全程在多段线&#xff08;多边形&#xff09;内部&#xff1b; 路径连续&#xff08;一笔画&#xff09;。核心思路与算法步…

ZED 2i相机调试

1. 测试 ZED SDK /usr/local/zed/tools/ZED_Diagnostic/usr/local/zed/tools/ZED_Explorer2. 安装SDK How to Install ZED SDK on Linux - Stereolabs 安装命令&#xff1a; sudo apt install zstd./ZED_SDK_Ubuntu20_cuda12.1_tensorrt8.6_v5.0.5.zstd.run

Go语言select并发编程实战指南

一、select作用Go 语言中的 select 语句是处理多通道&#xff08;Channel&#xff09;操作的核心控制结构&#xff0c;专为高效并发通信而设计。通过巧妙运用 select 语句&#xff0c;开发者能够高效实现并发控制、超时处理和非阻塞通信等功能&#xff0c;使其成为 Go 语言并发…

OpenCV常见问题汇总

1、深度拷贝的问题我对整张图像通过裁剪分别进行识别&#xff0c;出现识别结果与期望不同的问题&#xff0c;经过大量排查是OpenCV深度拷贝问题&#xff0c;我原来有问题的写法cv::Mat matCrop matZoom(roi); cv::Mat matCrop1 matCrop(roi1); cv::Mat matCrop2 matCrop(roi2)…

【Unity开发】Unity核心学习(一)

一、2D相关1、图片导入相关设置 &#xff08;1&#xff09;Unity支持的图片格式 支持BMP、TIF、JPG、PNG、TGA、PSD 常用格式具体介绍&#xff1a; JPG&#xff1a;指JPGE格式&#xff0c;属于有损压缩格式&#xff0c;无透明通道 PNG&#xff1a;无损压缩格式&#xff0c;有透…

Python自定义异常类的写法与使用场景

在软件开发的生命周期中&#xff0c;异常处理是保障程序健壮性与可维护性的关键环节。Python作为一门高级编程语言&#xff0c;内置了丰富的异常机制&#xff0c;能够高效、优雅地应对运行时的各种错误。然而&#xff0c;面对复杂业务场景和多层架构时&#xff0c;内置异常往往…

为 Promethus 配置https访问

一、序言 本篇将介绍如何使用数字证书为Promethus 访问提供加密功能&#xff0c;由于是实验环境证书由openssl生成&#xff0c;操作指南来自官网手册&#xff1a;https://prometheus.io/docs/guides/tls-encryption/在生产环境中prometheus可能会放在后端&#xff0c;证书一般配…

摆脱例行 SQL 报表的隐性成本:用 n8n 构建四节点自动化报告流程

例行 SQL 报表的隐藏成本 各类组织的数据团队都面临同样的反复难题:利益相关方需要定期报告,但手工 SQL 报表占用了本可用于分析的宝贵时间。无论公司规模如何,流程几乎一致——连接数据库、执行查询、格式化结果,并将结论分发给决策者。 数据从业者经常要处理并不需要高…

HCIP——OSPF综合实验

一、实验拓扑二、实验要求1、R4为ISP&#xff0c;其上只配置IP地址&#xff1b;R4与其他所直连设备间均使用公有IP&#xff1b; 2、R3-R5、R6、R7为MGRE环境&#xff0c;R3为中心站点&#xff1b; 3、整个OSPF环境IP基于172.16.0.0/16划分&#xff1b;除了R12有两个环回&#x…

GitHub 趋势日报 (2025年08月12日)

&#x1f4ca; 由 TrendForge 系统生成 | &#x1f310; https://trendforge.devlive.org/ &#x1f310; 本日报中的项目描述已自动翻译为中文 &#x1f4c8; 今日获星趋势图 今日获星趋势图1397gpt4all442system-prompts-and-models-of-ai-tools331umami307full-stack-fast…

Linux网络性能调优终极指南:深度解析与实践

Linux网络性能调优终极指南&#xff1a;深度解析与实践 一、性能调优核心原理体系 1.1 数据包生命周期与性能瓶颈 #mermaid-svg-TsvnmiGx1WeTerK2 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-TsvnmiGx1WeTerK2 .…