两阶段最小二乘法（2SLS）与工具变量（IV）模型

以下是关于两阶段最小二乘法（2SLS）与工具变量（IV）模型关系的系统解析，结合计量经济学理论与论文上下文进行说明：

一、核心关系：2SLS是IV模型的实现方法

1. IV模型：解决内生性的理论框架

目标：估计存在内生性问题的回归模型 $yi=xi′β+uiy_i = x_i'\beta + u_i$ （ $cov(xi,ui)≠0\text{cov}(x_i, u_i) \neq 0$ ）。
工具变量要求：
- 相关性： $cov(zi,xi)≠0\text{cov}(z_i, x_i) \neq 0$
- 外生性： $cov(zi,ui)=0\text{cov}(z_i, u_i) = 0$
理论解：IV估计量 $β^IV=(Z′X)−1Z′y\hat{\beta}_{IV} = (Z'X)^{-1}Z'y$ （仅适用于 $dz=dβd_z = d_\beta$ 的恰好识别场景）。

2. 2SLS：IV模型的普适性算法

作用：将IV估计推广到 $dz>dβd_z > d_\beta$ （过度识别）场景。
本质：通过两阶段回归数值等价于IV估计的广义形式：
$β^2SLS=[X′Z(Z′Z)−1Z′X]−1X′Z(Z′Z)−1Z′y \hat{\beta}_{2SLS} = [X'Z(Z'Z)^{-1}Z'X]^{-1}X'Z(Z'Z)^{-1}Z'y$
关键结论：
2SLS是IV模型的估计方法，当工具变量数=参数数（ $dz=dβd_z = d_\beta$ ）时，2SLS退化为标准IV估计。

二、2SLS的两阶段本质

1. 第一阶段：净化内生变量

目标：分离 $x_i$ 中与工具变量 $z_i$ 相关的部分（外生成分）。
操作：
$x^i=zi′δ^ \text{回归：} \quad x_i = z_i'\delta + v_i \implies \hat{x}_i = z_i'\hat{\delta}$
数学意义： $x^i\hat{x}_i$ 是 $x_i$ 在工具变量空间上的投影（ $X^=Z(Z′Z)−1Z′X\hat{X} = Z(Z'Z)^{-1}Z'X$ ）。

2. 第二阶段：替代回归

目标：用“净化”后的 $x^i\hat{x}_i$ 替代原始内生变量 $x_i$ 。
操作：
$回归：yi=x^i′β+εi ⟹ β^2SLS=(X^′X^)−1X^′y \text{回归：} \quad y_i = \hat{x}_i'\beta + \varepsilon_i \implies \hat{\beta}_{2SLS} = (\hat{X}'\hat{X})^{-1}\hat{X}'y$
直观理解：
通过工具变量 $z_i$ 提取 $x_i$ 的外生变异，阻断内生性传递路径。

示例（教育回报率估计）：

第一阶段：用出生季度（ $z_i$ ）预测受教育年限（ $x_i$ ）
第二阶段：用预测的受教育年限（ $x^i\hat{x}_i$ ）估计工资方程

三、2SLS与IV模型的数学等价性

1. 恰好识别场景（ $dz=dβd_z = d_\beta$ ）

2SLS第二阶段：
$β^2SLS=(X^′X^)−1X^′y \hat{\beta}_{2SLS} = (\hat{X}'\hat{X})^{-1}\hat{X}'y$
代入 $X^=Z(Z′Z)−1Z′X\hat{X} = Z(Z'Z)^{-1}Z'X$ ：
$β^2SLS=[X′Z(Z′Z)−1Z′X]−1X′Z(Z′Z)−1Z′y \hat{\beta}_{2SLS} = [X'Z(Z'Z)^{-1}Z'X]^{-1}X'Z(Z'Z)^{-1}Z'y$
标准IV估计量：
$β^IV=(Z′X)−1Z′y（当 dz=dβ 时等价） \hat{\beta}_{IV} = (Z'X)^{-1}Z'y \quad \text{（当 } d_z = d_\beta \text{ 时等价）}$

2. 过度识别场景（ $dz>dβd_z > d_\beta$ ）

2SLS优势：自动处理多余工具变量，仍可计算唯一解。
IV模型扩展：需结合GMM框架最小化加权矩条件（如论文中的SGMM）。

四、论文中的技术定位

1. 2SLS作为基准方法

对比角色：论文以离线2SLS为基准，凸显SGMM的在线计算优势（见表1-2）。
局限场景：
- 2SLS无法直接处理流数据（需全样本存储）
- 2SLS在过度识别时统计效率非最优（未使用GMM加权）

2. SGMM对2SLS的改进

维度	2SLS	SGMM（本文）
数据模式	批处理（离线）	流数据（在线）
计算复杂度	$O(n d_z^2)$ （矩阵求逆）	$O(d_z^2)$ 每样本（增量更新）
过度识别	直接可用但非最优	动态优化权重矩阵 $W_i$
理论性质	一致但渐近方差非最小	渐近等价于最优GMM

五、关键概念辨析

术语	定义	与2SLS的关系
工具变量（IV）	满足相关性、外生性的变量 $z_i$	2SLS的实现基础
IV模型	结构方程 $yi=xi′β+uiy_i = x_i'\beta + u_i$ + 矩条件 $E[uizi]=0\mathbb{E}[u_i z_i] = 0$	2SLS估计的对象
2SLS	通过两阶段回归求解IV模型的算法	IV模型的估计器
GMM	最小化加权矩条件 $min⁡βgn(β)′Wngn(β)\min_\beta g_n(\beta)'W_n g_n(\beta)$	2SLS的推广（含最优加权）

总结

IV模型是解决内生性问题的理论框架，2SLS是其最常用的估计算法。
2SLS通过两阶段回归数值实现IV估计：第一阶段提取内生变量的外生成分，第二阶段进行无偏回归。
论文中，2SLS作为离线基准，而SGMM通过随机近似框架将其扩展至流数据场景，实现高效在线估计。

核心公式回顾：
2SLS估计量：
$β^2SLS=[X′Z(Z′Z)−1Z′X]−1⏟工具投影X′Z(Z′Z)−1Z′y⏟工具加权 \hat{\beta}_{2SLS} = \color{red}{\underbrace{[X'Z(Z'Z)^{-1}Z'X]^{-1}}_{\text{工具投影}}} \color{blue}{\underbrace{X'Z(Z'Z)^{-1}Z'y}_{\text{工具加权}}}$
红色部分：工具变量对解释变量的投影
蓝色部分：工具变量对因变量的加权

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/93141.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/93141.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！