【机器学习笔记 Ⅱ】6 激活函数

激活函数是神经网络的核心组件，其作用远不止“引入非线性”。以下是系统化的解析：

1. 核心作用

(1) 引入非线性

没有激活函数：多层神经网络等价于单层线性变换（矩阵连乘仍是线性）。
加入激活函数：每层通过非线性函数（如ReLU）变换，使网络能拟合任意复杂函数（Universal Approximation Theorem）。

(2) 决定神经元激活状态

激活函数输出值表示神经元的“激活程度”（如Sigmoid输出0~1的概率，ReLU输出是否激活）。

(3) 控制梯度流动

良好的激活函数（如ReLU）可缓解梯度消失/爆炸问题，确保反向传播时梯度有效更新参数。

2. 没有激活函数会怎样？

模型能力受限：只能解决线性问题（如线性回归），无法处理图像、语言等非线性数据。
深度无效：无论多少层，等效于单层线性模型。

数学证明：
假设网络有 ( L ) 层，每层权重为 ( \mathbf{W}_l )，无激活函数时：

最终仍为线性变换。

3. 激活函数的关键特性

特性	作用	示例函数
非线性	使网络能拟合复杂模式。	ReLU, Sigmoid, Tanh
可微分	支持梯度下降优化。	所有常用激活函数
单调性	保证损失函数是凸的（利于优化）。	ReLU, Leaky ReLU
输出范围控制	避免数值爆炸（如Tanh输出[-1,1]，Sigmoid输出[0,1]）。	Tanh, Sigmoid
稀疏激活	部分神经元输出为零，提升计算效率。	ReLU

4. 常用激活函数对比

5. 为什么ReLU最常用？

计算高效：无需指数运算（比Sigmoid/Tanh快6倍）。
缓解梯度消失：正区间梯度恒为1。
稀疏性：负输入输出0，减少参数依赖。

问题：ReLU在 ( x<0 ) 时梯度为0，可能导致神经元死亡。
解决方案：使用Leaky ReLU或Parametric ReLU（PReLU）。

6. 激活函数选择指南

任务类型	隐藏层推荐	输出层推荐	理由
二分类	ReLU	Sigmoid	输出概率
多分类	ReLU	Softmax	多类概率归一化
回归	ReLU	无（线性输出）	直接预测数值
RNN/LSTM	Tanh	按任务选择	处理正负激活，避免梯度爆炸

7. 代码示例

(1) 自定义激活函数（Python）

import numpy as npdef relu(x):return np.maximum(0, x)def sigmoid(x):return 1 / (1 + np.exp(-x))# 前向传播示例
z = np.dot(X, W) + b  # 线性变换
a = relu(z)            # 激活函数

(2) 在PyTorch中使用激活函数

import torch.nn as nnmodel = nn.Sequential(nn.Linear(784, 128),nn.ReLU(),          # 隐藏层激活nn.Linear(128, 10),nn.Softmax(dim=1)   # 输出层激活
)

8. 高级话题

(1) 自适应激活函数

(2) 梯度消失问题的数学解释

链式法则中，若激活函数导数 ( \sigma’(z) ) 过小（如Sigmoid在两端导数≈0），多层连乘导致梯度指数级衰减。

9. 总结

没有激活函数：神经网络退化为线性模型，无法解决现实中的非线性问题。
核心价值：
1. 引入非线性，使网络成为“万能逼近器”。
2. 控制神经元激活与梯度流动。
实践建议：
- 隐藏层默认使用ReLU（注意初始化权重和学习率）。
- 输出层根据任务选择（Sigmoid/Softmax/线性）。

激活函数是神经网络的“灵魂”，决定了模型能否学习复杂模式！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/87891.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/87891.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！