机器学习的数学基础：线性模型

线性模型

线性模型的基本形式为：

$f\left(\boldsymbol{x}\right)=\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b$

回归问题

利用最小二乘法，得到 $\boldsymbol{\omega}$ 和 $b$ 的参数估计$
\boldsymbol{\hat{\omega}}=\left(\boldsymbol{\omega};b\right)$：

$\boldsymbol{\hat{\omega}}^*=\underset{\boldsymbol{\hat{\omega}}}{\text{arg}\min}\left(\boldsymbol{y-X\hat{\omega}}\right)^{\text{T}}\left(\boldsymbol{y-X\hat{\omega}}\right)$

其中：

$\boldsymbol{X}=\begin{pmatrix} \boldsymbol{x_1^\text{T}} & 1\\ \boldsymbol{x_2^\text{T}} & 1\\ \vdots & \vdots\\ \boldsymbol{x_m^\text{T}}&1 \end{pmatrix}$

由于在现实任务中 $\boldsymbol{X}^{\text{T}}\boldsymbol{X}$ 不一定为正定矩阵或者满秩矩阵，导致参数估计的不唯一，所以有时候需要引入正则项进行选取解。

广义线性模型

对于单调可微函数 $g$ ,令：

$y=g^{-1}(\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b)$

称为广义线性模型

二分类

对数几率回归与极大似然估计

对于二分类问题，其目标为： $y\in\{0,1\}$ ,由于理想的单位跃阶函数不连续，这里引入对数几率函数(logistic function):

$y=\frac{1}{1+e^{-z}}$

带入广义线性模型：

$\ln\frac{y}{1-y}=\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b$

其中，称 $\frac{y}{1-y}$ 为"几率"。

对参数估计,使用极大似然估计：

$\mathcal{L}=\max \sum_{i=1}^{m}\ln p\left(y_i|\boldsymbol{x}_i;\boldsymbol{\omega},b\right)$

其中，

$p\left(1|\boldsymbol{x}_i;\boldsymbol{\omega},b\right)=\frac{\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b}{1+e^{-(\boldsymbol{\omega}^\text{T}\boldsymbol{x}+b)}}$

该式可以由经典的凸优化算法求得。

LDA

线性判别分析(Linear Discriminant Analysis)是一个朴素的分类方法：

通过投影将高维数据映射到低维空间，使得同类样本的投影尽可能紧凑、不同类样本的投影尽可能分离，从而实现分类。

给定二分类数据集 $\{(\boldsymbol{x}_i, y_i)\}_{i=1}^m$ , $y_i \in \{0,1\}$ ，定义：

$X_i$ ：第 $\in \{0,1\}$ 类样本的集合
$\boldsymbol{\mu}_i$ ：第 $i$ 类样本的均值向量
$\boldsymbol{\Sigma}_i$ ：第 $i$ 类样本的协方差矩阵

若将数据投影到直线 $\boldsymbol{w}$ 上，两类样本中心的投影为 $ \boldsymbol{w}^{\mathrm{T}\boldsymbol{\mu}_0$、$\boldsymbol{w}}\mathrm{T}\boldsymbol{\mu}_1 $，协方差投影为$ \boldsymbol{w}^{\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w}$、$\boldsymbol{w}}\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w}$（均为实数，因投影到一维空间）。

得到构造的最优化函数：

$\max \mathcal{J}= \max \frac{\|\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_0 - \boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_1\|_2^2}{\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w} + \boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w}}$

为了简化表达，引入散度矩阵：

类内散度矩阵（ $\mathbf{S}_w$ ）：
整合两类协方差信息，反映同类样本的离散程度：
$\mathbf{S}_w = \boldsymbol{\Sigma}_0 + \boldsymbol{\Sigma}_1 = \sum_{\boldsymbol{x} \in X_0} (\boldsymbol{x} - \boldsymbol{\mu}_0)(\boldsymbol{x} - \boldsymbol{\mu}_0)^\mathrm{T} + \sum_{\boldsymbol{x} \in X_1} (\boldsymbol{x} - \boldsymbol{\mu}_1)(\boldsymbol{x} - \boldsymbol{\mu}_1)^\mathrm{T}$
类间散度矩阵（ $\mathbf{S}_b$ ）：
反映两类中心的离散程度，仅与均值向量有关：
$\mathbf{S}_b = (\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)(\boldsymbol{\mu}_0 - \boldsymbol{\mu}_1)^\mathrm{T}$