【机器学习】（算法优化二）提升算法之：AdaBoost与随机梯度

文章目录

一、 AdaBoost：自适应提升算法
- 1、AdaBoost数学原理详解
- - 1.1、目标函数
  - 1.2、样本权重更新的逻辑
  - 1.3、模型权重计算的含义
  - 1.4、 AdaBoost的核心思想
- 2、为什么AdaBoost如此有效？
二、随机梯度提升算法：梯度优化下更精细的优化
- 1、随机梯度提升算法：残差驱动的梯度优化
- - 1.1、核心目标函数
  - 1.2、残差驱动的训练过程
  - - 残差的本质：模型错误的量化
    - 步骤1：计算负梯度（残差）
    - 步骤2：模型对残差进行优化
    - 步骤3：更新预测
  - 1.3、为什么用残差而不是直接预测？
  - - 避免重复学习
    - 逐步精细化
  - 1.4、随机性的双重作用
  - - 样本随机性
    - 特征随机性
  - 1.5、随机梯度提升的核心思想
- 2、为什么随机梯度提升如此强大？
三、提升算法与装袋算法的对比
- 1、训练方式的差异
- 2、数学原理的差异

提升算法是集成学习中的另一重要分支，与装袋算法不同，提升算法通过顺序训练和权重调整，实现了与装袋算法不同的集成策略。AdaBoost通过自适应权重调整关注难分类样本，随机梯度提升通过梯度优化实现精确的损失函数最小化。

一、 AdaBoost：自适应提升算法

AdaBoost的核心思想是：通过调整样本权重，让后续模型专注于之前模型预测错误的样本。这种方法确保了每个基模型都能为集成贡献独特的价值。

1、AdaBoost数学原理详解

1.1、目标函数

$\sum_{t=1}^{T} \alpha_t h_t(x)$

这个公式表示：最终的预测是所有基模型预测的加权和

具体解释：

$F (x)$ 是最终的集成预测
$h_t(x)$ 是第 $t$ 个基模型（比如决策树）的预测
$αt\alpha_t$ 是第 $t$ 个模型的权重（重要性）
$T$ 是基模型的总数量

举个例子：
假设有3个基模型，预测结果分别是：

模型1： $h_1(x) = 1$ ，权重 $α1=0.5\alpha_1 = 0.5$
模型2： $h_2(x) = -1$ ，权重 $α2=0.3\alpha_2 = 0.3$
模型3： $h_3(x) = 1$ ，权重 $α3=0.2\alpha_3 = 0.2$

那么最终预测为：
$\times 1 + 0.3 \times (-1) + 0.2 \times 1 = 0.4$

1.2、样本权重更新的逻辑

$Dt+1(i)=Dt(i)exp⁡(−αtyiht(xi))ZtD_{t+1}(i) = \frac{D_t(i) \exp(-\alpha_t y_i h_t(x_i))}{Z_t}$

这个公式表示：根据当前模型的预测结果调整样本权重

具体解释：

$D_t(i)$ 是第 $t$ 轮第 $i$ 个样本的权重
$y_i$ 是第 $i$ 个样本的真实标签（1或-1）
$h_t(x_i)$ 是第 $t$ 个模型对第 $i$ 个样本的预测
$αt\alpha_t$ 是第 $t$ 个模型的权重
$Z_t$ 是归一化因子，确保权重和为1

关键理解：

如果 $y_i h_t(x_i) = 1$ （预测正确），则 $exp⁡(−αt)<1\exp(-\alpha_t) < 1$ ，权重减小
如果 $y_i h_t(x_i) = -1$ （预测错误），则 $exp⁡(αt)>1\exp(\alpha_t) > 1$ ，权重增大

举个例子：
假设第1个模型权重 $α1=0.5\alpha_1 = 0.5$ ，对某个样本的预测：

如果预测正确： $y_i h_1(x_i) = 1$ ，权重变为原来的 $exp⁡(−0.5)≈0.61\exp(-0.5) \approx 0.61$ 倍
如果预测错误： $y_i h_1(x_i) = -1$ ，权重变为原来的 $exp⁡(0.5)≈1.65\exp(0.5) \approx 1.65$ 倍

1.3、模型权重计算的含义

$αt=12ln⁡(1−ϵtϵt)\alpha_t = \frac{1}{2} \ln(\frac{1 - \epsilon_t}{\epsilon_t})$

这个公式表示：根据模型的错误率计算其权重

具体解释：

$ϵt\epsilon_t$ 是第 $t$ 个模型的加权错误率
$αt\alpha_t$ 是第 $t$ 个模型的权重

关键理解：

错误率越低，权重越大
错误率越高，权重越小
当错误率 = 0.5时，权重 = 0（没有贡献）

举个例子：

如果错误率 $ϵt=0.1\epsilon_t = 0.1$ （很好），则 $αt=12ln⁡(0.90.1)=1.1\alpha_t = \frac{1}{2} \ln(\frac{0.9}{0.1}) = 1.1$ （高权重）
如果错误率 $ϵt=0.4\epsilon_t = 0.4$ （一般），则 $αt=12ln⁡(0.60.4)=0.2\alpha_t = \frac{1}{2} \ln(\frac{0.6}{0.4}) = 0.2$ （中等权重）
如果错误率 $ϵt=0.5\epsilon_t = 0.5$ （随机），则 $αt=0\alpha_t = 0$ （无贡献）

1.4、 AdaBoost的核心思想

设计思路

样本权重更新：让后续模型更关注之前预测错误的样本
模型权重计算：让表现好的模型在最终预测中有更大话语权
顺序训练：每个新模型都试图纠正之前模型的错误

整体流程：

训练第1个模型，计算错误率和权重
根据预测结果调整样本权重（错误样本权重增大）
训练第2个模型（更关注权重大的样本）
重复这个过程，直到训练完所有模型
最终预测是所有模型预测的加权和

这就是AdaBoost如何通过"让每个模型专注于之前模型预测错误的样本"来实现强大集成效果的原理。

2、为什么AdaBoost如此有效？

AdaBoost的有效性可以从多个角度理解。从统计学角度看，AdaBoost通过调整样本权重，让每个基模型专注于不同的数据子集，从而实现了比简单平均更强的集成效果。

从机器学习角度看，AdaBoost的自适应特性使得它能够自动识别和关注难分类的样本，这种机制确保了模型在复杂数据上的强大表现。

二、随机梯度提升算法：梯度优化下更精细的优化

随机梯度提升算法的核心思想是：通过梯度下降的方式顺序训练基模型，每个新模型都试图纠正之前模型的残差。这种方法实现了比AdaBoost更精细的损失函数优化。

1、随机梯度提升算法：残差驱动的梯度优化

1.1、核心目标函数

随机梯度提升算法的目标函数为：

$\sum_{t=1}^{T} f_t(x)$

这个公式表示：最终的预测是所有基模型预测的简单累加

具体解释：

$F (x)$ 是最终的集成预测
$f_t(x)$ 是第 $t$ 个基模型（通常是决策树）的预测
$T$ 是基模型的总数量

与AdaBoost的区别：

AdaBoost： $\sum_{t=1}^{T} \alpha_t h_t(x)$ （加权和）
随机梯度提升： $\sum_{t=1}^{T} f_t(x)$ （简单累加）

1.2、残差驱动的训练过程

残差的本质：模型错误的量化

残差就是当前模型预测与真实值之间的差距，它量化了模型预测错误的程度。

数学定义：
$残差 = 真实值 - 当前预测值$

步骤1：计算负梯度（残差）

$rti=−∂L(yi,Ft−1(xi))∂Ft−1(xi)r_{ti} = -\frac{\partial L(y_i, F_{t-1}(x_i))}{\partial F_{t-1}(x_i)}$

这个公式表示：计算当前模型预测与真实值之间的"残差"

具体解释：

$L(y_i, F_{t-1}(x_i))$ 是损失函数（如均方误差）
$∂L∂Ft−1(xi)\frac{\partial L}{\partial F_{t-1}(x_i)}$ 是损失函数对预测的导数
负号表示我们要沿着梯度的反方向优化

对于均方误差损失：
$L(y, F) = (y - F)^2$
$∂L∂F=2(F−y)\frac{\partial L}{\partial F} = 2(F - y)$
$−∂L∂F=2(y−F)=2×残差-\frac{\partial L}{\partial F} = 2(y - F) = 2 \times 残差$