线性回归原理推导与应用（七）：逻辑回归原理与公式推导

逻辑回归是一种分类算法，常用于二分类，也就是得出的结果为是和不是，例如通过各种因素判断一个人是否生病，信用卡是否违约等。逻辑回归在社会和自然科学中应用非常广泛，

前置知识

线性回归

逻辑回归的底层方法就是线性回归，所以需要对线性回归有基本的了解。具体的一元，多元线性回归原理在之前的文章中已经讲过，可以查看之前的文章
https://blog.csdn.net/qq_42692386/article/details/140824402
https://blog.csdn.net/qq_42692386/article/details/138210463
https://blog.csdn.net/qq_42692386/article/details/146070598

回归：假设现在有一些数据点，我们用一条线对这些点进行拟合（这条线称为最佳拟合线），这个拟合的过程就叫做回归。

线性回归:最佳拟合线是一条直线，线性是指每个自变量（或者说特征） $x$ 与因变量（或者说结果） $y$ 的结果是线性的关系

逻辑回归

在线性回归中得到的结果一般是连续的结果，而分类需要的结果是离散型的，例如二分类就是最终结果只需要两类。逻辑回归可以进行分类就是使用了Sigmoid函数将结果转化为0到1的范围内，再将0.5作为分界线从而分类。

Sigmoid函数

又被称为对数几率函数、Logistic函数。Sigmoid函数的数学表达式为：
$\sigma(z)= \frac 1 {1+e^{-z}}$
其函数图像为：
在这里插入图片描述

从图形可以看出，Sigmoid函数有如下性质：
1.函数定义域为 $(−\infty,+\infty)$ ，值域为 $(0, 1)$ 。
2.当 $z$ 趋近于 $−\infty$ 时，函数值 $g (z)$ 趋近于0；当 $z$ 趋近于 $+\infty$ 时，函数值 $\sigma(z)$ 趋近于1;当 $z = 0$ 时,函数值 $\sigma(z)$ 等于0.5.
3.函数单调可微。

Sigmoid函数的这些性质决定了它可以将 $(−\infty,+\infty)$ 的数据映射到 $(0, 1)$ 上，加上它在中心点处取值为0.5，所以我们可以将0.5作为分界线来进行分类。当然选择0.5作为阈值是一个一般的做法，实际应用时特定的情况可以选择不同阈值，如果对正例的判别准确性要求高，可以选择阈值大一些，对正例的召回要求高，则可以选择阈值小一些

对Sigmoid函数求导，有：
$\begin{aligned} \sigma'(z) & = \frac d{dz}\frac 1{1+e^{-z}}\\ & = \frac {e^{-z}}{(1+e^{-z})^2}\\ & = \frac 1{(1+e^{-z})} \cdot (1- \frac 1{(1+e^{-z})})\\ & = \sigma(z)(1-\sigma(z))\\ \end{aligned}$
可以看到Sigmoid函数求导后仍然可以使用原函数表示,这也是它的一个比较好的性质。

逻辑回归的损失函数

逻辑回归本质上是线性回归，只是在特征到结果的映射中加入了一层Sigmoid函数映射，即先把特征线性求和，然后使用Sigmoid函数 $g (z)$ 将线性回归的结果值映射到0到1之间。将线性回归模型的表达式带入g(z)，就得到逻辑回归的表达式:

在之前的线性回归原理中多元线性回归的一般形式为：
$f(x) = w_{0}x_{0} +w_{1}x_{1}+ w_{2}x_{2} + ... +w_{k}x_{k}=w^Tx$
代入到逻辑Sigmoid函数的表达式中，结果为：
$h(x)=\sigma(w^Tx)= \frac 1 {1+e^{-w^Tx}}$

此时如果按照之前的最小二乘法推导出最终的损失函数是非凸的，很难找到最优解，所以逻辑回归中使用最大似然法来确定模型的参数。

最大似然估计

最大似然估计认为我们既然已经抽取得到了一个结果，那么就认为这个结果就是所有情况、所有样本结果中出现概率最大的那一个。考虑到每次的抽取都是独立同分布的，所以将每一个取值对应的概率相乘就是这一个样本结果出现的概率（也就是似然函数），那么只要让这一个结果出现的概率（似然函数）最大就可以估算出每个值对应的概率

举个例子来说就是一个大桶里有红蓝两种球，现在有放回的随机抽了100个球，最终有70个红球和30个蓝球，那么我们可以推断认为桶里红蓝球的比例约为7：3，因为这种比例下出现已抽取到的结果的可能性最大.。
具体可以参阅如下链接文章：
https://blog.csdn.net/qq_42692386/article/details/139919043

最大似然估计的一般步骤为：

写出似然函数（也就是已知的样本结果出现的概率）。对于离散型变量是将对应概率相乘，连续型变量就是概率密度函数相乘。
求似然函数最大时对应概率的值。一般为了简化计算，首先对等式两边取对数，将相乘改为相加减，然后对似然函数求导，求导数为0时的值

逻辑回归损失函数推导

逻辑回归的最终结果是一个二分类结果，在概率中将结果表示为 $y = 0, y = 1$ ,通常用数字1表示结果为正例，0表示结果为反例，可以分别表示发生与不发生，正面与反面，成功与失败，有问题与无问题等等二分类结果。在概率中我们用 $P (Y)$ 表示事件 $Y$ 发生的概率,例如 $P (Y = 1)$ 可以表示硬币抛出正面，下雨这个事件发生等等的概率。同时二分类中的结果只有正例和反例，所以两者发生概率相加为1。用 $P (Y ∣ X)$ 表示在条件 $X$ 的情况下事件 $Y$ 发生的概率，称为后验概率

所以在逻辑回归中，结果当取值为 $x$ 时为正例的概率为：
$\frac 1 {1+e^{-w^Tx}}=\frac{ e^{w^Tx}} {1+e^{w^Tx}}$
同理可得出当取值为 $x$ 时为负例的概率：
$P(y=0|x;w))=1-h(x)=1-\sigma(w^Tx)= \frac{1} {1+e^{w^Tx}}$
需要注意的是这里直接将逻辑回归的计算结果 $h (x)$ 作为概率，例如一个样本计算结果 $h (x) = 0.8$ ，则就是认为其为正例的可能性为0.8,从而根据概率理解为其为正例，但是需要注意的是这个计算结果并不是一个真实的概率，只是在逻辑回归中计算结果可以作为概率来使用。

将两者合并到一起，可以得到逻辑回归的表达式：
$P(y|x;w)= (h(x))^y(1- h(x))^{1-y}$

假设训练样本相互独立，则根据最大似然函数写出似然函数的表达式为：

$\prod_{i=1}^n P(y^{(i)}|x^{(i)};w) = \prod_{i=1}^n h(x^{(i)})^{y^{(i)}}(1-h(x^{(i)}))^{1-y^{(i)}}$

其中 $x^{(i)},y^{(i)}$ 是第 $i$ 个观察样本的自变量值和实际结果值
对等式两边取以自然底数 $e$ 为底的对数，将累乘变为累加，有：

$\begin{aligned} ln J(w) &= ln \bigg(\prod_{i=1}^n h(x^{(i)})^{y^{(i)}}(1-h(x^{(i)}))^{1-y^{(i)}} \bigg) \\&= \sum^n_{i=1} \Big[y^{(i)} ln(h(x^{(i)})) + (1-y^{(i)})ln(1-h(x^{(i)}))\Big] \end{aligned}$

最大似然估计希望似然函数越大越好，而之前我们求解损失函数时用的梯度下降是求最小值，所以在前面可以加一个负号，这样就得到逻辑回归的损失函数如下：
$-\sum^n_{i=1} \Big[y^{(i)} ln(h(x^{(i)})) + (1-y^{(i)})ln(1-h(x^{(i)}))\Big]$

梯度下降更新公式

为了求解得到逻辑回归的损失函数的最小值，依旧使用梯度下降法
$w_{j}^{n+1}=w_{j}^{n}-\alpha\frac{\partial}{\partial w_{j}} J(w)$
其中 $\alpha$ 为学习率

根据Sigmoid函数求导的性质，对w求偏导有：

$h(x)=\sigma(w^Tx)= \sigma(w^Tx)(1-\sigma(w^Tx))\frac{\partial}{\partial w_{j}}{w^Tx}= h(x){(1-h(x)}) \frac{\partial}{\partial w_{j}}{w^Tx}$

对损失函数求偏导有：
$\begin{aligned} \frac{\partial}{\partial w_{j}} J(w) &= -\sum^n_{i=1} \Big[y^{(i)} \frac{1}{h(x^{(i)})} \frac{\partial}{\partial w_{j}}h(x^{(i)}) + (1-y^{(i)}) \frac{1}{(1-h(x^{(i)}))} \frac{\partial}{\partial w_{j}}{(1-h(x^{(i)})})\Big] \\&= -\sum^n_{i=1} \Big[y^{(i)} \frac{1}{h(x^{(i)})} \frac{\partial}{\partial w_{j}}h(x^{(i)}) - (1-y^{(i)}) \frac{1}{(1-h(x^{(i)}))} \frac{\partial}{\partial w_{j}}{h(x^{(i)}})\Big] \\&= -\sum^n_{i=1} \Big[y^{(i)} \frac{1}{h(x^{(i)})} - (1-y^{(i)}) \frac{1}{(1-h(x^{(i)}))} )\Big] \frac{\partial}{\partial w_{j}}h(x^{(i)}) \\&= -\sum^n_{i=1} \Big[y^{(i)} \frac{1}{h(x^{(i)})} - (1-y^{(i)}) \frac{1}{(1-h(x^{(i)}))} )\Big] h(x^{(i)}){(1-h(x^{(i)}))} \frac{\partial}{\partial w_{j}}{w^Tx} \\&= -\sum^n_{i=1} \Big[y^{(i)} {(1-h(x^{(i)}))} - (1-y^{(i)})h(x^{(i)})\Big] \frac{\partial}{\partial w_{j}}{w^Tx}\\&= -\sum^n_{i=1} \Big[y^{(i)} - h(x^{(i)})\Big] \frac{\partial}{\partial w_{j}}{w^Tx} \\&= \sum^n_{i=1} \Big[h(x^{(i)} - y^{(i)} )\Big] x_{j}^{（i）} \end{aligned}$