逻辑回归与Softmax

Softmax函数是一种将一个含任意实数的K维向量转化为另一个K维向量的函数，这个输出向量的每个元素都在(0, 1)区间内，并且所有元素之和等于1。
因此，它可以被看作是某种概率分布，常用于多分类问题中作为输出层的激活函数。这里我们以拓展逻辑回归解决多分类的角度对Softmax函数进行理解：

假设共有 $C$ 个类别，模型对输入 $\mathbf{x}$ 输出 $C$ 个类别的得分，
则属于类别 $c$ 的后验概率为：
$\mid \mathbf{x}) = \frac{e^{\beta_c^\top \mathbf{x}}}{\sum_{j=1}^{C} e^{\beta_j^\top \mathbf{x}}}$
其中 $\beta_c$ 是第 $c$ 类对应的参数向量， $j$ 是求和的类别索引， $\mathbf{x}$ 是输入特征向量。

为什么使用指数函数 $e$ ?

Softmax 函数的形式为：
$\sigma(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}},$
其中每个得分 $z_i$ 的形式为：
$z_i = \beta_i^\top \mathbf{x},$
表示输入特征向量 $\mathbf{x}$ 与第 $i$ 类对应的参数向量 $\beta_i$ 的线性组合。

使用指数函数 $e^{z_i}$ 有以下几点重要理由：

非负性：对于任意实数 $z_i$ ，都有 $e^{z_i} > 0$ 。这保证了 Softmax 输出的概率值始终为正数。
保持序关系：指数函数是严格单调递增函数。若 $z_i > z_j$ ，则 $e^{z_i} > e^{z_j}$ ，从而保留了原始得分之间的相对大小关系。
便于求导：指数函数具有良好的可导性，且其导数形式简单 $\left(\frac{d}{dx}e^x = e^x\right)$ ，这对基于梯度下降等优化算法非常友好。
映射到概率分布：通过除以总和 $\sum_{j=1}^{C} e^{z_j}$ ，使得所有类别的输出加起来等于 1，形成一个合法的概率分布。

下面的示意图清晰地表示 Softmax 函数的原理和计算过程。以下是一个完整的推导流程示例，包括线性回归输出、Softmax 激活函数的应用，以及最终的分类结果。

$\overset{X}{\begin{pmatrix} 0.5 & 0 & 0.7 \\ 0.5 & 0.5 & 0.9 \\ 0.1 & 0.1 & 0.6 \\ 0.6 & 0.1 & 0 \end{pmatrix}} \times \overset{\bm{\beta}}{ \begin{pmatrix} -0.15 \\ 0.95 \\ 2.2 \end{pmatrix}} =\begin{pmatrix} 0.5 \cdot (-0.15) + 0 \cdot 0.95 + 0.7 \cdot 2.2 \\ 0.5 \cdot (-0.15) + 0.5 \cdot 0.95 + 0.9 \cdot 2.2 \\ 0.1 \cdot (-0.15) + 0.1 \cdot 0.95 + 0.6 \cdot 2.2 \\ 0.6 \cdot (-0.15) + 0.1 \cdot 0.95 + 0 \cdot 2.2 \end{pmatrix}=\overset{\text{线性输出 } \mathbf{z}}{ \begin{pmatrix} 1.385 \\ 2.43 \\ 1.37 \\ -0.095 \end{pmatrix}}$

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.pswp.cn/news/908875.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！