【深度学习:进阶篇】--4.1.循环神经网络(改进)

RNN存在的问题:梯度爆炸,长期依赖参数量过大等问题

目录

1.GRU(门控循环单元)

1.1.什么是GRU

1.2.直观理解

1.3.本质解决问题

2.LSTM(长短记忆网络)

2.1.作用

3.结构扩展与效率优化​


1.GRU(门控循环单元)

2014年,出现的算法:

论文地址:[1406.1078] Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

1.1.什么是GRU

  • GRU增加了两个门,一个重置门(reset gate)和一个更新门(update gate)
    • 重置门决定了如何将新的输入信息与前面的记忆相结合
    • 更新门定义了前面记忆保存到当前时间步的量
    • 如果将重置门设置为 1,更新门设置为 0,那么将再次获得标准 RNN 模型

1.2.直观理解

相当于在网络当中增加了一些记忆的标记,然后对后面预测输出有帮助

The cat,which already ate,…….,was full.

对于上面的句子,was是句子前面的cat来进行指定的,如果是复数将是were。所以之前的RNN当中的细胞单元没有这个功能,GRU当中加入更新门,在cat的位置置位1,一直保留到was时候

1.3.本质解决问题

原论文中这样介绍:

  • 为了解决短期记忆问题,每个递归单元能够自适应捕捉不同尺度的依赖关系
  • 解决梯度消失的问题,在隐层输出的地方ht,ht−1的关系用加法而不是RNN当中乘法+激活函数

2.LSTM(长短记忆网络)

  • hth​t​​:为该cell单元的输出
  • ctc​t​​:为隐层的状态
  • 三个门:遗忘门f、更新门u、输出门o

2.1.作用

便于记忆更长距离的时间状态。

3.结构扩展与效率优化​

  • ​双向RNN(Bi-RNN/Bi-LSTM/Bi-GRU)​
    • 叠加正向和反向RNN层,同时捕捉过去和未来的上下文信息,适用于NLP任务(如机器翻译)。
  • ​深层RNN(Stacked RNN)​
    • 堆叠多层RNN单元(如LSTM/GRU),增强模型表达能力,但需注意梯度问题。
  • ​IndRNN(2018)​
    • 对神经元独立循环连接,缓解梯度消失,支持更深的网络和更长的序列。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/87547.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/87547.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中心化钱包安全方案

先来看独立的密钥安全技术 1 自建或单租户 CloudHSM 优点:密钥永不出硬件,无法导出,只能对外提供公钥。 交易时,外部应用把消息哈希传进去签名,再把签好名的结果拿出来用。 这种方式安全性拉满,但成本高、…

Android 实现底部弹窗

文章目录在 Android 中创建优雅的底部选项弹窗 (BottomSheetDialogFragment) 📱第一步:设计底部弹窗的布局 🎨第二步:创建 BottomSheetDialogFragment 类 ⚙️第三步:触发并显示底部弹窗 🚀在 Android 中创…

LAN8720 寄存器概览和STM32 HAL库读写测试

目录 寄存器0x00:Basic Control Register(BCR)0x01:Basic Status Register(BSR) 连接测试寄存器读写测试 补充 寄存器 // 0x00:Basic Control Register(BCR) BIT15:Soft Reset 写1复位,写1之…

渗透测试深度分析:空密码Administrator账户引发的安全风暴

渗透测试深度分析:空密码Administrator账户引发的安全风暴0x01 测试背景 在内网渗透测试中,对Windows主机 192.168.1.98 使用 enum4linux 进行枚举: enum4linux -u Administrator -p -a 192.168.1.98关键发现:Administrator账户空…

OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 OpenCV 的 CUDA 模块(cudev) 中的一个设备端内联函数,用于高效地计算两个 uint 类型值的带权重平均值。 该函…

[学习记录]Unity毛发渲染[URP]-Shell基础版

毛发,无论是人类的头发、动物的皮毛,还是奇幻生物的绒毛,都是构成生命感和真实感不可或缺的元素。它对光线的独特散射、吸收和反射,赋予了物体柔软、蓬松、有生命力的质感。它不仅仅是让角色看起来更“毛茸茸”那么简单&#xff0…

数字孪生技术引领UI前端设计潮流:增强现实(AR)的集成应用

hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言:AR 与数字孪生融合的设计革新浪潮在体验经济与技术融合的双重驱动下&…

碰一碰发视频源码搭建与定制化开发:支持OEM

在近场通信(NFC)技术与移动终端深度融合的背景下,“碰一碰发视频” 功能凭借便捷的交互体验,在商业推广、信息传递等场景中快速落地。不同于标准化解决方案的黑盒模式,基于源码的定制化开发能从底层优化传输效率、提升…

Ubuntu 24.04 安装配置 Redis 7.0 开机自启

下载源码 wget https://download.redis.io/releases/redis-7.0.12.tar.gz安装依赖 & 准备环境 sudo apt update && sudo apt upgrade -y sudo apt install -y build-essential tcl curl解压 tar xzf redis-7.0.12.tar.gz编译安装 cd redis-7.0.12 make -j$(nproc) …

【Linux 系统】基础IO——Linux中对文件的理解

13.基础IO(1) 文章目录13.基础IO(1)文件的基本概念:内容与属性文件的打开机制:fopen 和 open被打开的文件与磁盘文件的区别文件的内核数据结构文件与进程的交互方式标准输入/输出/错误与文件流系统调用与文件描述符文件打开模式(r/w/a/a&…

Go调度器的抢占机制:从协作式到异步抢占的演进之路|Go语言进阶(7)

想象一下这样的场景:你在餐厅排队等位,前面有个人点了餐却一直霸占着座位玩手机,后面的人只能干等着。这就是Go早期版本面临的问题——一个goroutine如果不主动让出CPU,其他goroutine就只能饿着。 今天我们来聊聊Go调度器是如何解…

开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践(四)

一、前言 在人工智能迅速发展的今天,如何让AI系统更懂“你”?答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统,正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交…

基于微信小程序的校园二手交易平台、微信小程序校园二手商城源代码+数据库+使用说明,layui+微信小程序+Spring Boot

school-market 介绍 基于微信小程序的校园二手交易平台 功能结构图 软件架构 系统分为三个端,分别是客户端、管理端、服务端; 客户端:使用原生微信小程序实现 管理端:使用Layui实现 服务端:使用Java SpringBoot…

IDEA与Gradle构建冲突,导致java重复类的解决方案

项目构建总是报错:错误提示1:java:重复类或错误提示2:Internal error in the mapping processor: java.lang.RuntimeException: javax.annotation.processing.FilerException: Attempt to recreate a file排查发现build/generated/sources/an…

如何调节笔记本电脑亮度?其实有很多种方式可以调整亮度

长时间面对屏幕工作、学习或娱乐,很多人会感到眼睛干涩、疲劳,甚至出现视力下降等问题。其实,这些问题的背后,往往隐藏着一个看似简单却极易被忽视的设置—屏幕亮度。 合适的屏幕亮度不仅能提升视觉体验,还能有效缓解…

国际数字影像产业园创作空间升级 打造更优质营商环境

国际数字影像产业园创作空间升级后表现显著,聚焦设施数字化与用户体验优化。整体提升了创意生态系统的竞争力,有效吸引全球企业。 升级核心改进 基础设施现代化:引入智能硬件如5G网络和云渲染设备,支持高清影像处理,…

浅谈 webshell 构造之如何获取恶意函数

前言这篇文章主要是总结一下自己学习过的如何获取恶意函数的篇章,重点是在如何获取恶意函数get_defined_functions(PHP 4 > 4.0.4, PHP 5, PHP 7, PHP 8)get_defined_functions — 返回所有已定义函数的数组我们主要是可以通过这个获取危险的函数比如比如当然还有…

Python 单例模式与魔法方法:深度解析与实践应用

在 Python 编程领域,设计模式解决常见问题的通用方案,而魔法方法则是 Python 语言赋予类强大功能的特殊接口。单例模式和魔法方法看似独立,实则紧密关联,魔法方法常被用于实现单例模式。深入理解并熟练运用它们,能够帮助开发者编写出结构清晰、高效且具有高复用性的代码。…

pybind11 导出 C++ map 在 Python 层 get 访问慢的优化方案

pybind11 导出 C map 在 Python 层 get 访问慢的优化方案 问题描述 通过 pybind11 导出 C 的 std::map 或 std::unordered_map,在 Python 代码中频繁使用 get 方法访问 value 时,性能非常低下。其主要原因是: pybind11 的 map 绑定会导致每次…

RTC实时时钟DS1339U-33国产替代FRTC1339M

FRTC1339M是一款实时时钟(RTC)芯片,由NYFEA徕飞公司制造。 FRTC13399M串行实时时钟是一种低功耗的时钟日期设备,具有两个可编程的每日时间警报和一个可编程的方波输出。通过2线双向总线进行串行地址和数据传输。时钟/日期提供秒、…