深度学习模型1:理解LSTM和BiLSTM

深度学习模型1:理解LSTM和BiLSTM

因为最近科研复现论文中需要了解单向LSTM和双向LSTM,所以就学习了一下LSTM的基本原理,下面孬孬带着大家一起学习一下,感谢大家的一键三连

一、RNN

因为谈到LSTM,就必不可少的会考虑RNN,对应的这是一个脉络传承下来的,循环神经网络。

在这里插入图片描述
在这里插入图片描述

对于RNN如上图所示,对应的输入的时不同的时间段,对应输出得到的也是对应的不同的时间段,因为他们神经网络是相连的,所以会捕获对应的时间关系,对应举例比如输出 “h1” 就会受到输入x0和x1的共同影响的。但是RNN会有长期以来的问题,简单来说长期依赖的问题就是在每一个时间的间隔不断增大时,RNN会丧失到连接到远处信息的能力,比如对应ht+1的输出受到x0/x1这种远处输入影响。

二、LSTM

因此,LSTM就是为了解决长期依赖问题而生的,LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM的默认行为,而非需要付出很大代价才能获得的能力!

在这里插入图片描述在这里插入图片描述
对应的LSTM图如上,相比前面的RNN的图,LSTM增加了很多设置,也就是很多"阈值",下面带着大家介绍一下:包括细胞状态(Ct)、遗忘门、输入门和输出门。

1.细胞状态(Ct)

t时刻的记忆信息,用来保存重要信息。就好像我们的笔记本一样,保存了我们以前学过的知识点。如下图的水平线从图上方贯穿运行,直接在整个链上运行,使得信息在上面流传保持不变会很容易。
在这里插入图片描述

2.遗忘门

控制遗忘上一层细胞状态的内容,根据上一序列的ht-1和本序列的Xt为输入,通过sigmoid激活函数,得到上一层细胞状态内容哪些需要去除,那些需要保留。值得注意的是,该输入是以向量的形式,我们希望遗忘门输出的值大多为0或1,即对向量中的每个值是完全忘记或者完全记住,因此我们使用的是sigmoid函数作为激活函数,因为该函数在许多取值范围内的值都接近于0或1(这里不能用阶跃函数作为激活函数,因为它在所有位置的梯度都为0,无法作为激活函数)。其他门使用sigmoid函数同理。因此,虽然在其他神经网络可以变换激活函数,但并不建议变换LSTM的激活函数。
在这里插入图片描述

以一个例子来说明遗忘门的作用:在语言模型中,细胞状态可能保存着这样的重要信息:当前主语为单数或者复数等。如当前的主语为“小明”,当输入为“同学们”,此时遗传门就要开始“干活”了,将“小明”遗忘,主语为单数形式遗忘。

3.输入门

处理当前序列位置的输入,确定需要更新的信息,去更新细胞状态。此过程分为两部分,一部分是使用包含sigmoid层的输入门决定哪些新信息该被加入到细胞状态;确定了哪些新信息要加入后,需要将新信息转换成能够加入到细胞状态的形式。所以另一部分是使用tanh函数产生一个新的候选向量。(可以这么理解,LSTM的做法是对信息都转为能加入细胞状态的形式,然后再通过第一部分得到的结果确定其中哪些新信息加入到细胞状态。)
在这里插入图片描述

有了遗忘门和输入门,现在我们就能把细胞状态Ct−1更新为Ct了。如下图所示,其中ft×Ct−1表示希望删除的信息,it×Ct表示新增的信息。

在这里插入图片描述

4.输出门

最后要基于细胞状态保存的内容来确定输出什么内容。即选择性的输出细胞状态保存的内容。类似于输入门两部分实现更新一样,输出门也是需要使用sigmoid激活函数确定哪个部分的内容需要输出,然后再使用tanh激活函数对细胞状态的内容进行处理(因为通过上面计算得到的Ct每个值不是在tanh的取值范围-1~1中,需要调整),将这两部分相乘就得到了我们希望输出的那部分。

在这里插入图片描述

举个例子,同样在语言模型中,细胞状态中此时包含很多重要信息,比如:主语为单数形式,时态为过去时态,主语的性别为男性等,此时输入为一个主语,可能需要输出与动词相关的信息,这个时候只需要输出是单数形式和时态为过程,而不需要输出主语性别就可确定动词词性的变化。

三、双向LSTM(Bi-directional LSTM)

为什么会有双向的这种考虑,其实也很容易理解,因为之前的LSTM都只能依据之前时刻的时序信息来预测下一时刻的输出,但在有些问题中,当前时刻的输出不仅和之前的状态有关,还可能和未来的状态有关系。比如预测一句话中缺失的单词不仅需要根据前文来判断,还需要考虑它后面的内容,真正做到基于上下文判断。因此就是和前后都有关系,所以就是需要两个方向相反的LSTM拼在一起,来实现.

前向的LSTM与后向的LSTM结合成BiLSTM。比如,我们对“我爱中国”这句话进行编码,模型如图所示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文献

https://zhuanlan.zhihu.com/p/47802053
https://blog.csdn.net/v_JULY_v/article/details/89894058
https://blog.csdn.net/qq_36696494/article/details/89028956
https://www.cnblogs.com/Allen-rg/p/11712703.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/88422.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/88422.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[论文阅读] 软件工程 | 一篇关于开源许可证管理的深度综述

关于开源许可证管理的深度综述 论文标题:Open Source, Hidden Costs: A Systematic Literature Review on OSS License ManagementarXiv:2507.05270 Open Source, Hidden Costs: A Systematic Literature Review on OSS License Management Boyuan Li, Chengwei Liu…

Qt悬浮动态

粉丝悬浮动态,及抽奖程序#include "masklabel.h"MaskLabel::MaskLabel(int pos_x,QString fans_name,QWidget*parent):QLabel(parent) {this->setAlignment(Qt::AlignHCenter);//设置字体居中this->setStyleSheet("color:white;font-size:20px…

深入拆解Spring思想:DI(依赖注入)

在简单了解IoC与DI中我们已经了解了DI的基本操作,接下来我们来详解DI。(IoC详解请看这里)我们已经知道DI是“你给我,我不用自己创建”的原则。现在我们来看看Spring是如何实现“给”这个动作的,也就是依赖注入的几种方式。 Spring主要提供了…

Arcgis连接HGDB报错

文章目录环境症状问题原因解决方案环境 系统平台:Linux x86-64 Red Hat Enterprise Linux 7 版本:6.0 症状 Arcgis连接HGDB报错: 无法连接到数据库服务器来检索数据库列表;请检查服务器名称、用户名和密码信息,然后…

Android 应用常见安全问题

背景:OWASP MASVS(Mobile Application Security Verification Standard 移动应用安全验证标准)是移动应用安全的行业标准。 一、MASVS-STORAGE:存储 1.1 不当暴露FileProvider目录 配置不当的 FileProvider 会无意中将文件和目录暴露给攻击者…

Netty的内存池机制怎样设计的?

大家好,我是锋哥。今天分享关于【Netty的内存池机制怎样设计的?】面试题。希望对大家有帮助; Netty的内存池机制怎样设计的? 超硬核AI学习资料,现在永久免费了! Netty的内存池机制是为了提高高并发环境下的内存分配与回收效率…

Python 项目快速部署到 Linux 服务器基础教程

Linux的开源特性和强大的命令行工具使得部署流程高度自动化,可重复性强。本文将详细介绍如何从零开始快速部署Python项目到Linux服务器。 Linux系统因其稳定性、安全性和性能优化,成为Python项目部署的首选平台。无论是使用flask构建Web应用、FastAPI创…

SQL Server通过CLR连接InfluxDB实现异构数据关联查询技术指南

一、背景与需求场景 在工业物联网和金融监控场景中,实时时序数据(InfluxDB)需与业务元数据(SQL Server)联合分析: 工业场景:设备传感器每秒采集温度、振动数据(InfluxDB),需关联工单状态、设备型号(SQL Server)金融场景:交易流水时序数据(每秒万条)需实时匹配客…

机器学习详解

## 深入解析机器学习:核心概念、方法与未来趋势机器学习(Machine Learning, ML)作为人工智能的核心分支,正深刻重塑着我们的世界。本文将系统介绍机器学习的基本概念、主要方法、实际应用及未来挑战,为您提供全面的技术…

汽车间接式网络管理的概念

在汽车网络管理中,直接式和间接式管理是两种用于协调车载电子控制单元(ECUs)之间通信与行为的机制。它们主要用于实现车辆内部不同节点之间的协同工作,特别是在涉及网络唤醒、休眠、状态同步等场景中。### 直接式管理直接式网络管…

npm : 无法加载文件 D:\Node\npm.ps1,因为在此系统上禁止运行脚本。

npm : 无法加载文件 D:\Node\npm.ps1,因为在此系统上禁止运行脚本。 安装高版本的node.js,可能会导致这个问题, 脚本的权限被限制了,需要你设置用户权限。 get-ExecutionPolicy set-ExecutionPolicy -Scope CurrentUser remotesig…

搜索算法讲解

搜索算法讲解 深度优先搜索-DFS P1219 [USACO1.5] 八皇后 Checker Challenge 一个如下的 666 \times 666 的跳棋棋盘,有六个棋子被放置在棋盘上,使得每行、每列有且只有一个,每条对角线(包括两条主对角线的所有平行线&#xff…

深度学习---Rnn-文本分类

# 导入PyTorch核心库 import torch # 导入神经网络模块 import torch.nn as nn # 导入优化器模块 import torch.optim as optim # 导入函数式API模块 import torch.nn.functional as F # 导入数据集和数据加载器 from torch.utils.data import Dataset, DataLoader # 导入NumPy…

20250709解决KickPi的K7开发板rk3576-android14.0-20250217.tar.gz编译之后刷机启动不了

【整体替换】 Z:\20250704\rk3576-android14.0\rkbin清理编译的临时结果: rootrootrootroot-X99-Turbo:~$ cd 14TB/versions/rk3576-android14.0-20250217k7/ rootrootrootroot-X99-Turbo:~/14TB/versions/rk3576-android14.0-20250217k7$ ll rootrootrootroot-X99-…

怎么创建新的vue项目

首先,新建一个文件点文件路径,输入cmd

CIU32L051系列 DMA串口无阻塞性收发的实现

1.CIU32L051 DMA的通道映射由于华大CIU32L051的DMA外设资源有限,DMA只有两个通道可供使用,对应的通道映射图如下:2.UART对应的引脚分布及其复用映射CIU32L051对应的UART对应的引脚映射图如下,这里博主为了各位方便查找,就直接全拿…

飞算 JavaAI 体验:重塑 Java 开发的智能新范式

飞算 JavaAI 体验:重塑 Java 开发的智能新范式引言:正文:一、工程化代码生成:从 "片段拼接" 到 "模块交付"1.1 传统工具的局限与突破1.2 代码质量验证二、智能重构引擎:从 "问题修复" 到…

深入理解JVM的垃圾收集(GC)机制

引言首先我们来介绍垃圾收集的概念,什么是垃圾收集?垃圾收集 (Garbage Collection,GC),顾名思义就是释放垃圾占用的空间,防止内存爆掉。有效的使用可以使用的内存,对内存堆中已经死亡…

【笔记】国标-机动车辆及挂车分类

源于:GB/T 15089-2001机动车辆及挂车分类 1.L类:两轮或三轮车辆2.M类:四轮载客车辆3.N类:四轮载货车辆4.O类:挂车5.G类:其他

VLLM部署DeepSeek-LLM-7B-Chat 模型

一、部署环境准备1. 基础环境要求操作系统:Linux(推荐欧拉系统、Ubuntu 等)Python 版本:3.8 及以上依赖工具:pip、git、curl可选依赖:GPU 环境:NVIDIA GPU(支持 CUDA 11.7&#xff0…