激活函数-sigmoid、tanh、relu、softmax对比

激活函数是神经网络的核心组件,用于引入非线性特性,使网络能够学习复杂模式。以下从定义、作用、分类及应用场景进行详细解析:


🔍 ​​一、定义​

激活函数(Activation Function)是作用于神经元输出的​​非线性函数​​,其数学形式为:
输出=f(加权输入)
其中加权输入通常为 w⋅x+b(w 为权重,x 为输入,b 为偏置。
​核心目的​​:若无激活函数,多层网络等价于单层线性变换(如 y=W3​(W2​(W1​x+b1​)+b2​)+b3​ 仍是线性),无法处理图像、语言等非线性任务。


⚙️ ​​二、作用​

  1. ​引入非线性​
    使神经网络能够逼近任意复杂函数,解决线性模型无法处理的模式(如分类边界、特征交互)。
  2. ​控制输出范围​
    • Sigmoid 将输出压缩至 (0,1),适合概率输出;
    • Tanh 输出 (−1,1),零中心化利于梯度优化;
    • ReLU 过滤负值为 0,增强稀疏性和计算效率。
  3. ​优化训练动态​
    • 缓解梯度消失(如 ReLU 的正区间梯度恒为 1);
    • 避免梯度爆炸(通过输出范围约束)。

📊 ​​三、分类与常见类型​

根据梯度和输出特性,激活函数可分为两类:

​类型​​特点​​代表函数​​典型应用场景​
​饱和函数​梯度随输入增大趋近于 0Sigmoid, Tanh二分类输出层、RNN
​非饱和函数​梯度在部分区间恒定非零ReLU, Leaky ReLUCNN隐藏层、深层网络
​1. 饱和激活函数​
  • ​Sigmoid​
    • 公式:
    • 优点:输出 (0,1),适合概率建模;
    • 缺点:梯度消失、非零中心化导致收敛慢。
  • ​Tanh​
    • 公式:
    • 优点:输出 (−1,1),零中心化加速收敛;
    • 缺点:梯度消失问题仍存在。
​2. 非饱和激活函数​
  • ​ReLU​
    • 公式:
    • 优点:计算高效,缓解梯度消失;
    • 缺点:负输入导致“神经元死亡”。
  • ​Leaky ReLU​
    • 公式:
    • 优点:解决神经元死亡,保留负梯度信息。
  • ​Softmax​
    • 公式:
    • 特点:输出概率分布,适用于多分类输出层。

🎯 ​​四、选型建议​

不同场景下的激活函数选择:

​任务类型​​推荐激活函数​​原因​
二分类输出层Sigmoid输出概率符合 (0,1) 范围
多分类输出层Softmax输出归一化为概率分布
隐藏层(CNN/深度模型)ReLU/Leaky ReLU计算高效,缓解梯度消失
RNN/自编码器Tanh零中心化平衡正负信号
GAN生成器输出层Tanh输出 (−1,1) 匹配像素范围

​深层网络优化​​:优先使用 ReLU 变体(如 Leaky ReLU、Swish)避免梯度消失;

​资源受限场景​​:选择计算简单的 ReLU,避免复杂函数如 GELU。

💎 ​​总结​

激活函数通过非线性映射扩展了神经网络的表达能力。​​饱和函数(如 Sigmoid、Tanh)​​ 适用于概率输出和特定结构(如 RNN),但需警惕梯度消失;​​非饱和函数(如 ReLU 及其变体)​​ 凭借高效计算和梯度稳定性,成为深层网络隐藏层的首选。选型时需结合任务需求、数据特性和网络深度,实践时可进行实验验证以确定最优方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/87340.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/87340.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三步走实现嵌入式硬件与软件开发

目录 ✅ 一、嵌入式硬件与软件的边界(为你后面每阶段安排任务打基础) ✅ 二、三阶段开发策略规划(以你的三步走为主线) 📍阶段1:确定能做 → 外包技术顾问协助选型 + 需求拆解 + 采购建议 适用角色 关键目标 如何管理? 工具推荐 📍阶段2:会做一些 → 小范围…

ubuntu运行cursor

一.CURSOR官网下载AppImage文件 https://www.cursor.com/en/download 二、解压 AppImage 绕过挂载机制 解决:默认使用Cursor.AppImage 会自动挂载临时目录在/tmp目录下,出现没有权限挂载的报错问题 若挂载点仍不可写,直接解压 AppImage 运…

PTA天梯赛L1 071-080题目解析

目录 1.L1-071 前世档案 2.L1-072 刮刮彩票 3.L1-073 人与神 4.L1-074 两小时学完C语言 5.L1-075 强迫症 6.L1-076 降价提醒机器人 7.L1-077 大笨钟的心情 8.L1-078 吉老师的回归 9.L1-079 天梯赛的善良 10.L1-080 乘法口诀数列 1.L1-071 前世档案 解析:…

git常用操作 --- idea编译器 --- 公司实战版

前言 虽然git的命令方式很灵活,但是还是不够人性化,不够方便。 如果对git操作不熟练特别容易犯迷,可能敲一会命令就不知道当前在干什么了,下一步要干什么。 下面,我将演示在Java开发中使用最常用最经典的idea编译器来进行git操作,非常人性化和方便。 如果没有安装git和初始…

window显示驱动开发—流输出阶段

流输出 (SO) 阶段可以在这些顶点到达光栅器之前将顶点流式传输到内存。 流输出的运行方式类似于管道中的点击。 即使数据继续向下流向光栅器,也可以打开此点击。 通过流输出发送的数据连接到缓冲区。 这些缓冲区可以在后续传递上作为管道输入进行循环。 流输出的一…

备份docker desktop中的opengauss数据库

文章目录 备份docker desktop中的opengauss数据库一、前提条件二、备份步骤三、注意事项四、自动化备份(可选)五、验证备份 备份docker desktop中的opengauss数据库 ​ 以下是在 Docker Desktop 中备份 OpenGauss 数据库(以你的环境为例&…

实时中值滤波 + 低通滤波 示例程序(STM32环境)

一、功能概述 本示例实现两个滤波器: 中值滤波器(Median Filter):对短期异常值(如尖峰噪声)有良好的抑制能力;低通滤波器(Low-Pass Filter):对数据进行平滑…

AtCoder Beginner Contest 409 题解

本文为AtCoder Beginner Contest 409 的详细题解 目录 题目A: 题目大意: 解题思路: 代码(C): 题目B: 题目大意: 解题思路: 代码(C): 题目C: 题目大意: 解题思路: 代码(C): 题目D: 题目大意: 解题思路: 代码(C): 题目E: 题目大意: 解题思路: 代码(C): 题目A…

Spring @Environment 典型用法

简单说:Spring 里没有直接叫 Environment 的注解,更准确说常用的是 Autowired 注入 Environment 对象,或者结合 Value 配合 Environment 读取配置 。 支持从以下来源读取: 1、application.properties / .yaml 2、JVM 参数&#xf…

【集合与结构体】5.2(课本题)总结代码

ds老师产物&#xff0c;纯为期末复习&#xff0c;自用。 题目1 编写程序&#xff0c;将一个整型变量右移 4 位&#xff0c;并以二进制数形式输出该整数在移位前和移位后的数值。 //观察系统填补空缺的数位情况 代码解答 #include <iostream>//编写程序&#xff0c;将一个…

16.max/min最大最小值函数

1.基本使用 max/min函数返回满足where条件的一列的最大/最小值。 select max(column_name)|min(column_name) from table_namewhere where_definition 示例&#xff1a; ①求班级总分的最高分 #求班级总分的最高分 SELECT MAX(math_scorechinese_scoreenglish_score)AS 总分…

需要做一款小程序,用来发券,后端如何进行设计能够保证足够安全?

温馨提示&#xff1a;本文由ai生成&#xff0c;请辨别阅读&#xff0c;本文仅提供一种思考的方式和设计思路 设计一个安全的后端系统&#xff0c;用于发放优惠券的小程序&#xff0c;需要考虑多个安全层面&#xff0c;包括身份验证、数据安全、API 安全、以及防止常见攻击&…

ACM设计平台-核心模块解析-赵家康

负责模块解析-赵家康 一、Login.vue 功能逻辑、数据绑定、表单验证、与后端交互 Vue 登录页面的代码设计 代码功能概览 代码实现了一个典型的登录页功能&#xff0c;核心包括&#xff1a; 表单输入&#xff08;学号、用户名、密码、验证码&#xff09; 验证码生成与校验 勾…

在 VMware (WM) 虚拟机上安装的 Ubuntu 22.04 分配了 20GB 磁盘,但仅使用 10GB 就显示 “空间已满“

可能原因及解决方案 虚拟机磁盘未实际扩容&#xff08;仅调整了虚拟大小&#xff09; 现象&#xff1a;在 VMware 里调整了磁盘大小&#xff08;如 20GB → 50GB&#xff09;&#xff0c;但 Ubuntu 内部仍只识别 10GB。 原因&#xff1a;VMware 调整的是虚拟磁盘上限&#xf…

初学STM32全功能按键非阻塞式实现和强化

其实笔者以前学51的时候按键功能就包含非阻塞式的&#xff0c;而且还包括矩阵按键的非组塞式按键实现。开关的长短键功能笔者在之前的51博文中笔者自己尝试写过&#xff0c;功能是有了但写的其实很混乱&#xff0c;几乎没有移植的价值。这次江科大刚好出了新的教程&#xff0c;…

【网络原理】网络原理简单认识 —— 内含网络通信基础、五元组、网络协议(OSI 七层协议、TCP/IP 五层(或四层)协议)、封装和分用

目录 1. 网络互连 1.1 局域网LAN 1.2 广域网WAN 2 网络通信基础 2.1 IP地址 2.2 端口号 2.3 网络协议 3. 五元组 4. 协议分层 4.1 OSI 七层网络模型 4.2 TCP/IP 五层&#xff08;或四层&#xff09;网络模型 4.3 网络设备所在分层(经典笔试题) 5. 网络数据传输的基…

嵌入式之硬件学习(三)通信方式、串口通信

目录 一、通信种类 1、并行通信 2、串行通信 3、单工模式(Simplex Communication) 4、半双工通信(Half-Duplex Communication) 5、全双工通信(Full-Duplex Communication) 6、串行的异步通信与同步通信 &#xff08;1&#xff09;异步通信 &#xff08;2&#xff09;同…

【微信小程序】3、SpringBoot整合WxJava发送订阅消息

1、创建消息模板 在公共模板库里面选择符合自己业务场景的消息模板&#xff0c;例如&#xff1a; 每个消息模板最多选择5项&#xff0c;可根据自己业务需求自行选择&#xff0c;顺序也可以自己决定。提交后&#xff0c;我们就得到了属于自己的消息模板ID 2、文档阅读 官方文…

Flask 快速精通:从入门到实战的轻量级 Web 框架指南

Flask 作为 Python 生态中最受欢迎的轻量级 Web 框架&#xff0c;以其简洁灵活的设计理念赢得了开发者的青睐。本文将系统梳理 Flask 的核心概念与实战技巧&#xff0c;帮助你快速掌握这一强大框架。 一、Flask 框架概述 1.1 轻量级框架的核心特性 Flask 诞生于 2010 年&…

Python爬取豆瓣短评并生成词云分析

一、项目概述 本项目的目标是爬取豆瓣上某部电影的短评数据&#xff0c;并生成词云进行情感分析。我们将使用Python编程语言&#xff0c;借助爬虫技术获取数据&#xff0c;并利用自然语言处理和数据可视化工具进行分析。具体步骤包括&#xff1a; 爬取豆瓣短评数据。数据清洗…