RNN GRU LSTM 模型理解

RNN GRU LSTM 模型理解

bicheng/2025/5/29 17:28:26/文章来源:https://blog.csdn.net/qq_41764621/article/details/148168302

一、RNN

1. 在RNN中， $a^{<0>} = x^{<0>} = [0,0,0,0, ... 0]$

2. RNN是一个序列模型，与非序列模型不同，序列中的元素互相影响： $a^{<t>}$ 是由 $a^{<t-1>}$ 计算得来的。

在前向传播中： $a^{<t-1>}$ 用于计算 $y^{<t-1>}$ 和 $a^{<t>}$

$a^{<t>}$ 用于计算 $y^{<t>}$ 和 $a^{<t+1>}$

因此，当进行反向链式法则求导时候，

$a^{<t>}$ 的梯度由两部分组成：

一部分是由 $y^{<t>}$ 对 $a^{<t>}$ 求导计算得来；

一部分是由 $a^{<t+1>}$ 对 $a^{<t>}$ 求导计算得来。

这就对应了代码的：

gradients = rnn_cell_backward(da[:,:,t] + da_prevt, caches[t])

二、GRU

1. GRU是为了解决RNN 梯度消失引入的改良模型，

2. GRU 通过门控 Gamma_r Gamma_u 两个变量，实现了对于过往记忆的筛选：这种机制使得GRU能够灵活地决定何时“忘记”过去的信息以及何时“记住”新的信息，从而有效地捕捉序列数据中的长期依赖关系。

具体理解如下：

三、LSTM

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.pswp.cn/bicheng/82571.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

多路径传输(比如 MPTCP)控制实时突发

多路径传输(比如 MPTCP)控制实时突发

实时突发很难控制，因为 “实时” 和 “突发” 相互斥。实时要求避免排队，而突发必然要排队，最终的解决方案都指向找一个公说公有理，婆说婆有理的中间点，这并没解决问题，只是权衡了问题。这种局部解决问题的…

阅读更多...

函数式编程思想详解

函数式编程思想详解

函数式编程思想详解 1. 核心概念不可变数据 (Immutable Data) 数据一旦创建，不可修改。任何操作均生成新数据，而非修改原数据。优点：避免副作用，提升并发安全，简化调试。 Java实现：使用final字段、不可变…

阅读更多...

iOS 主要版本发布历史

iOS 主要版本发布历史

截至 2025 年 5 月，iOS 的最新正式版本是 iOS 18，于 2024 年 9 月 16 日正式发布。此前的 iOS 17 于 2023 年 9 月 18 日发布，并在 2024 年被 iOS 18 取代。(维基百科) 📱 iOS 主要版本发布历史以下是 iOS 各主要版本的发布日…

阅读更多...

矩阵详解：线性代数在AI大模型中的核心支柱

矩阵详解：线性代数在AI大模型中的核心支柱

🧑 博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C, C#, Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C、C#等开发语言，熟悉Java常用开…

阅读更多...

基于51单片机和8X8点阵屏、独立按键的飞行躲闪类小游戏

基于51单片机和8X8点阵屏、独立按键的飞行躲闪类小游戏

目录系列文章目录前言一、效果展示二、原理分析三、各模块代码1、8X8点阵屏2、独立按键3、定时器04、定时器1 四、主函数总结系列文章目录前言用的是普中A2开发板。【单片机】STC89C52RC 【频率】12T11.0592MHz 【外设】8X8点阵屏、独立按键效果查看/操作演示&#xff…

阅读更多...

区块链可投会议CCF C--APSEC 2025 截止7.13 附录用率

区块链可投会议CCF C--APSEC 2025 截止7.13 附录用率

Conference：32nd Asia-Pacific Software Engineering Conference (APSEC 2025) CCF level：CCF C Categories：软件工程/系统软件/程序设计语言 Year：2025 Conference time：December 2-5, 2025 in Macao SAR, China …

阅读更多...

$pdf图片导出（Visio\Origin\PPT）$

pdf图片导出（Visio\Origin\PPT）

一、Visio 导入pdf格式图片 1. 设计->大小，适应绘图。 2. 文件->导出，导出为pdf格式。上面两部即可得到只包含图的部分的pdf格式。如果出现的有默认白边，可以通过以下方式设置： 1. 文件->选项->自定义功能区->…

阅读更多...

vector的实现

vector的实现

介绍 1. 本质与存储结构动态数组实现：vector 本质是动态分配的数组，采用连续内存空间存储元素，支持下标访问（如 vec[i]），访问效率与普通数组一致（时间复杂度 O (1)）。动态扩容机制&…

阅读更多...

【Linux笔记】防火墙firewall与相关实验（iptables、firewall-cmd、firewalld）

【Linux笔记】防火墙firewall与相关实验（iptables、firewall-cmd、firewalld）

一、概念 1、防火墙firewall Linux 防火墙用于控制进出系统的网络流量，保护系统免受未授权访问。常见的防火墙工具包括 iptables、nftables、UFW 和 firewalld。防火墙类型包过滤防火墙：基于网络层（IP、端口、协议）过滤流量&a…

阅读更多...

el-date-picker 前端时间范围选择器

el-date-picker 前端时间范围选择器

控制台参数： 前端代码：用数组去接受，同时用 value-format"YYYY-MM-DD" 格式化值为：年月日格式 <transition name"fade"><div class"search" v-show"showSe…

阅读更多...

在 macOS 上安装 jenv 管理 JDK 版本

在 macOS 上安装 jenv 管理 JDK 版本

在 macOS 上安装 jenv 并管理 JDK 版本在开发 Java 应用程序时，你可能需要在不同的项目中使用不同版本的 JDK。手动切换 JDK 版本可能会很繁琐，但幸运的是，有一个工具可以简化这个过程：jenv。jenv 是一个流行的 Java 版本管理工…

阅读更多...

2025年全国青少年信息素养大赛复赛C++集训（16）：吃糖果2（题目及解析）

2025年全国青少年信息素养大赛复赛C++集训（16）：吃糖果2（题目及解析）

2025年全国青少年信息素养大赛复赛C集训（16）：吃糖果2（题目及解析） 题目描述现有n(50 > n > 0)个糖果,每天只能吃2个或者3个，请计算共有多少种不同的吃法吃完糖果。时间限制：1000 内存…

阅读更多...

ARM笔记-嵌入式系统基础

ARM笔记-嵌入式系统基础

第一章嵌入式系统基础 1.1嵌入式系统简介 1.1.1嵌入式系统定义嵌入式系统定义： 嵌入式系统是以应用为中心，以计算机技术为基础，软硬件可剪裁，对功能、可靠性、成本、体积、功耗等有严格要求的专用计算机系统 ------Any devic…

阅读更多...

大语言模型(LLM)入门项目推荐

大语言模型(LLM)入门项目推荐

推荐大语言模型(LLM)的入门项目 TiaoYu-1。 https://github.com/tiaoyu1122/TiaoYu-1 项目优点： 几乎每一行代码(一些重复的代码除外)都添加了注释，详细介绍了代码的作用，方便阅读与理解。基本上覆盖了常见 LLM 模型的全部训练流程&#x…

阅读更多...

Linux里more 和 less的区别

Linux里more 和 less的区别

在 Linux/Unix 系统中，more 和 less 都是用于分页查看文本文件的命令，但 less 是 more 的增强版，功能更强大。以下是它们的核心区别和用法对比： 1. 基础功能对比特性moreless（更强大）向前翻页❌ 仅支持向…

阅读更多...

基于PDF流式渲染的Word文档在线预览技术

基于PDF流式渲染的Word文档在线预览技术

一、背景介绍在系统开发中，实现在线文档预览与编辑功能是许多项目的核心需求，但在实际的开发过程中，我们经常会面临以下难点： 1）格式兼容性问题：浏览器原生不支持解析Word二进制格式，直接渲染会…

阅读更多...

ai学习--python部分-1.变量名及命名空间的存储

ai学习--python部分-1.变量名及命名空间的存储

初学代码时总有一个问题困扰我：a 10 # a指向地址0x1234（存储10） 变量a的值10存储在0x1234，那么变量a需要存储吗？a又存储在什么地址呢目录 1. 命名空间的本质 2. 命名空间的内存占用 3. …

阅读更多...

Leetcode 3563. Lexicographically Smallest String After Adjacent Removals

Leetcode 3563. Lexicographically Smallest String After Adjacent Removals

Leetcode 3563. Lexicographically Smallest String After Adjacent Removals 1. 解题思路2. 代码实现题目链接：3563. Lexicographically Smallest String After Adjacent Removals 1. 解题思路这次的最后一题同样没有自力搞定，简直了…… 这道题还…

阅读更多...

微信小程序之Promise-Promise初始用

微信小程序之Promise-Promise初始用

我们来尝试使用Promise。 1、需求，做个抽奖的按钮， 抽奖规则： 30%的几率中奖，中奖会提示恭喜恭喜，奖品为10万 RMB 劳斯莱斯优惠券，没中奖会提示再接再厉。 2、先搭界面： <view class&qu…

阅读更多...

spring-boot-starter-data-redis应用详解

spring-boot-starter-data-redis应用详解

一、依赖引入与基础配置添加依赖在 pom.xml 中引入 Spring Data Redis 的 Starter 依赖，默认使用 Lettuce 客户端： <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis<…

阅读更多...

最新文章