自然语言处理NLP(3)

上文:
自然语言处理NLP(1)
自然语言处理NLP(2)

Gated RNN & LSTM
  1. 简单RNN存在的问题

    随着时间的回溯,简单RNN不能避免梯度消失或者梯度爆炸

  2. 梯度裁剪

    用来解决梯度爆炸问题

    code:

    g:所有参数梯度的和;threshold:阈值

    在这里插入图片描述

  3. Gated RNN

    用来解决梯度消失问题

    Gated RNN框架下的两种结构:LSTM GRU

  4. LSTM (Long Short-Term Memory:长短期记忆)长时间维持短期记忆

    仅输出隐藏状态向量h,记忆单元c对外不可见

    1. ht = tanh(Ct)

    在这里插入图片描述

    1. Gated 门:用来控制数据的流动,门的开合程度是自动从数据中学习到的,有专门的权重参数用于控制门的开合程度,这些权重参数也是通过学习被更新,sigmoid函数用于求门的开合程度

    2. 输出门

      对tanh(Ct)施加门,因为这个门管理下一个隐藏状态ht的输出,所以这个门称为输出门output gate

      输出门的开合程度由xt和ht-1求出 sigmoid函数用于求门的开合程度:

      在这里插入图片描述

在这里插入图片描述

  1. 遗忘门

    对记忆但会员Ct-1添加一个忘记不必要记忆的门,这个门称为遗忘门 forget gate

    遗忘门的开合程度:

    在这里插入图片描述

  2. 新的记忆单元

    遗忘门从上一时刻的记忆单元删除了应该忘记的,现在我们还想向这个记忆单元添加一些应当记住的,为此我们添加新的tanh节点

    g:向记忆单元添加的新信息

    将g加到上一时刻的Ct-1上,从而形成新的记忆

    在这里插入图片描述

    在这里插入图片描述

  3. 输入门

    对这个新的记忆单元g添加门,这个门称为输入门 input gate

    输入门的开合程度:

    在这里插入图片描述

  4. 使用LSTM的语言模型

    Embedding -> LSTM -> Affine -> Softmax with Loss

  5. 改进

    1. LSTM的多层化

      我们可以叠加多个LSTM层,从而学习更加复杂的模式(在PTB数据集上学习语言模型的情况下,LSTM的层数为2~4时,结果比较好)

    2. Dropout抑制过拟合

      常规Dropout:在深度方向(垂直方向)上插入Dropout层

      变分Dropout:用在时间方向上

    3. 权重共享 weight tying

      Embedding层和Affine层的权重共享,可以减少需要学习的参数数量

基于RNN生成文本
  1. 如何生成下一个新单词?

    概率性的选择:根据概率分布进行选择,这样概率高的单词容易被选到,概率低的单词难以被选到。然后再把选中的词当作输入,再次选择下一个新的单词

  2. seq2seq模型:Encoder-Decoder模型 编码器-解码器模型

    编码器对输入数据进行编码,解码器对被编码的数据进行解码

    编码:就是将任意长度的文本转换为一个固定长度的向量

    seq2seq由两个LSTM层构成:编码器的LSTM和解码器的LSTM。LSTM层的隐藏状态是编码器和解码器的桥梁,在正向传播时,编码器的编码信息通过LSTM层的隐藏状态传递给解码器;反向传播时,解码器的梯度通过这个桥梁传递给编码器

  3. seq2seq改进

    1. 反转输入数据 Reverse

      反转输入数据的顺序,反转数据后梯度的传播可以更加平滑

    2. 偷窥 Peeky

      将集中了重要信息的编码器的输出h分配给解码器的其他层

  4. seq2seq的应用

    1. 聊天机器人 chatgpt

    2. 算法学习

    3. 自动图像描述

      编码器从LSTM换成CNN

Attention 注意力机制

Attention从数据中学习两个时序数据之间的对应关系,计算向量之间的相似度,输出这个相似度的加权和向量

  1. 结构

    Attention层放入LSTM和Affine层之间

    hs:LSTM中各个时刻的隐藏状态向量被整合为hs

    在这里插入图片描述

  2. 双向RNN

    让LSTM从两个方向进行处理:双向LSTM

    各个单词对应的隐藏状态向量可以从左右两个方向聚集信息,这些向量就编码了更均衡的信息

  3. Attention层的不同使用

    1. Attention层放入LSTM和Affine层之间(垂直方向)
    2. Attention层放入上一时刻的LSTM层、Affine层和当前时刻的LSTM层之间(时间方向)
  4. seq2seq的深层化 & skip connection

    为了让带Attention的seq2seq具有更强的表现力,加深LSTM层

    在加深层时使用到的一个技巧是残差连接(skip connection / residual connection / shortcut):是一种跨层连接的简单技巧

  5. Attention应用

    1. GNMT 谷歌神经机器翻译系统

    2. Transformer

      Attention is all you need

      Transformer不用RNN,而用Attention进行处理:self-Attention

    3. NTM Neural Turing Machine 神经图灵机

      计算机的内存操作可以通过神经网络复现:

      在rnn的外部配置一个存储信息的存储装置,使用Attention向这个存储装置读写必要的信息

GRU

GRU:Gated Recurrent Unit 门控循环单元

  1. 结构

    GRU相比于LSTM的结构,取消了记忆单元的使用,只使用隐藏状态

    在这里插入图片描述

    r:reset门:决定在多大程度上忽略过去的隐藏状态

    h~:新的隐藏状态(下列第三个式子)

    z:update门:更新隐藏状态

    (1-z)· ht-1:forget门

    z · h~:input门

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91669.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91669.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

内循环全部满足条件后,为true

### 实现方式在 C 中&#xff0c;可以通过在内循环外部定义一个布尔变量&#xff0c;并在内循环的每次迭代中检查特定条件是否满足。如果所有迭代均满足条件&#xff0c;则在内循环结束后将布尔变量设置为 true。以下是一个示例代码&#xff1a;cpp #include <iostream>i…

STM32--DHT11(标准库)驱动开发

一、前言在我们进行嵌入式开发时&#xff0c;驱动开发也是十分重要的一步&#xff0c;在很多时候&#xff0c;我们的都需要自己来编写硬件的底层驱动&#xff0c;实现硬件与芯片的通信&#xff0c;常见的协议有SPI&#xff0c;IIC&#xff0c;以及单总线的一些通信方式&#xf…

HttpServletRequest 和 HttpServletResponse核心接口区别

HttpServletRequest 和 HttpServletResponse核心接口区别在 Java Web 开发&#xff08;基于 Servlet 规范&#xff09;中&#xff0c;HttpServletRequest 和 HttpServletResponse 是两个核心接口&#xff0c;分别代表 ​​HTTP 请求​​ 和 ​​HTTP 响应​​。它们的主要区别在…

win10 环境删除文件提示文件被使用无法删除怎么办?

因为我没想太好怎么模拟一个文件被使用&#xff0c;我就使用 "java -jar xxx.jar" 模拟 xxx.jar 文件被使用无法删除吧。现在有一个后台进行在执行 java -jar chat-robot-1.0.0.jar &#xff0c;所以此时删除 chat-robot-1.0.0.jar 提示&#xff1a;当然这个提示对于…

1.7vue生命周期

生命周期阶段与钩子函数创建阶段beforeCreate()&#xff1a;实例初始化之后&#xff0c;数据观测和事件配置之前调用。此时无法访问到data、methods等属性。created()&#xff1a;实例创建完成后调用。完成了数据观测&#xff0c;属性和方法的运算&#xff0c;watch/event事件回…

第十八天(指纹识别WAF判断蜜罐排除)

Web架构 开源CMS&#xff1a; Discuz、WordPress、PageAdmin、蝉知等 前端技术&#xff1a; HTML5、Jquery、Bootstrap、Vue、NodeJS等 开发语言&#xff1a; PHP、JAVA、Ruby、Python、C#、JS、Go等 框架组件&#xff1a; SpringMVC、Thinkphp、Yii、Tornado、Vue等 Web服…

Real-Time Rendering 4th Edition 完整学习路径

课程计划&#xff1a;Real-Time Rendering 4th Edition 完整学习路径 &#x1f4da;⚡ 阶段一&#xff1a;数学基础巩固 (2-3周) &#x1f9ee;向量与矩阵运算 3D变换矩阵的本质理解齐次坐标系统的实际意义几何数学 点、线、面的几何关系法向量与切向量计算三角函数在图形学中的…

MC0364魔法链路

码蹄集OJ-魔法链路 MC0364・魔法链路 难度&#xff1a;黄金 时间限制&#xff1a;1 秒 占用内存&#xff1a;256 M 收藏 报错 小码妹学会了多重施法&#xff0c;也就是同时施放多个法术的能力&#xff0c;然而多重施法中每个最终施放的法术都需要一些前置的法力运转&#xff…

《解密React key:虚拟DOM Diff中的节点身份锚点》

在React的性能优化体系中&#xff0c;key属性始终是一个看似简单却暗藏玄机的存在。它并非可有可无的标记&#xff0c;而是虚拟DOM Diff算法识别节点身份的核心锚点&#xff0c;直接决定着React如何判断节点是否需要重渲染、如何复用已有元素。理解key的本质&#xff0c;不仅能…

react 和 react native 的开发过程区别

React 和 React Native 虽然都使用 React 思想和语法&#xff08;函数组件、Hooks、JSX 等&#xff09;&#xff0c;但在 开发流程、渲染机制、UI 组件、样式处理、运行平台 等方面有明显差异。以下是对比总结&#xff1a;✅ 一、开发目的和平台不同对比项ReactReact Native应用…

什么是股指期货的不对冲策略?

不对冲策略的核心思想是把股指期货当作ETF基金来用。ETF基金是一种跟踪指数的基金&#xff0c;比如沪深300ETF&#xff0c;它会按照沪深300指数的成分股比例来配置资产。而股指期货则是直接跟踪沪深300指数的期货合约。假设现在沪深300指数是4000点&#xff0c;你有120万资金。…

C++ vector底层实现与迭代器失效问题

目录 前言 一、vector 的框架 二、基础实现 1、无参的构造&#xff1a; 2、析构函数 3、size 4、capacity 5、reserve扩容 6、push_back 7、迭代器 8、 operator[ ] 9、pop_back 10、insert 以及 迭代器失效问题 11、erase 以及 迭代器失效问题 12、resize 13、 拷贝…

HTML 表单详解:构建用户交互的完整指南

在上一篇文章中&#xff0c;我们学习了HTML的基础标签和页面结构。今天我们将深入探讨HTML中最重要的交互元素——表单。表单是网页与用户交互的核心组件&#xff0c;从简单的登录页面到复杂的数据收集系统&#xff0c;都离不开表单的支持。表单基础概念表单&#xff08;Form&a…

云原生周刊:2025年的服务网格

开源项目推荐 kaito kaito 是由微软开源并托管于 GitHub 的项目&#xff0c;旨在自动化在 K8s&#xff08;主目前支持 Azure AKS&#xff09;中部署与管理大型语言模型&#xff08;如 Falcon、Phi‑3、Llama&#xff09;推理及微调工作负载。它通过定义 CRD&#xff08;Works…

国产开源大模型崛起:使用Kimi K2/Qwen2/GLM-4.5搭建编程助手

近期&#xff0c;国产大模型领域的发展令人瞩目&#xff0c;多款高性能开源模型的涌现&#xff0c;为我们开发者带来了前所未有的机遇。这些模型不仅在各大基准测试中名列前茅&#xff0c;其强大的代码能力也为我们打造个性化的编程助手提供了坚实的基础。HuggingFace的开源大模…

浅析责任链模式在视频审核场景中的应用

本文字数&#xff1a;3161字预计阅读时间&#xff1a;20分钟01设计模式设计模式的概念出自《Design Patterns - Elements of Reusable Object-Oriented Software》中文名是《设计模式 - 可复用的面向对象软件元素》&#xff0c;该书是在1994 年由 Erich Gamma、Richard Helm、R…

洛谷 P3372 【模板】线段树 1-普及+/提高

题目描述 如题&#xff0c;已知一个数列 {ai}\{a_i\}{ai​}&#xff0c;你需要进行下面两种操作&#xff1a; 将某区间每一个数加上 kkk。求出某区间每一个数的和。 输入格式 第一行包含两个整数 n,mn, mn,m&#xff0c;分别表示该数列数字的个数和操作的总个数。 第二行包含 n…

flink写paimon表的过程解析

背景 apache paimon是构建湖仓一体的重要组成部分&#xff0c;由于paimon的写入速度很快&#xff0c;通过flink进行数据写入是很自然的选择&#xff0c;本文就介绍下使用flink写入paimon的两阶段协议的大概逻辑 技术实现 flink通过两阶段协议写入paimon表&#xff0c;分成三个步…

迅为RK3568开发板OpeHarmony学习开发手册-点亮 HDMI 屏幕

OpenHarmony 源码中默认支持 HDMI 屏幕&#xff0c;但是默认的分辨率是采用 mipi 的分辨率&#xff0c;我们修改代码&#xff0c;关闭 MIPI 就可以正常显示了。在之前视频修改的基础上&#xff0c;修改/home/topeet/OH4.1/OpenHarmony-v4.1-Release/OpenHarmony/out/kernel/src…

北京理工大学医工交叉教学实践分享(1)|如何以实践破解数据挖掘教学痛点

如何有效提升医工交叉领域数据挖掘课程的教学效果&#xff1f;近日&#xff0c;北京理工大学医学技术学院辛怡副教授在和鲸组织的分享会上&#xff0c;系统介绍了其团队在《数据挖掘在生物医学中的应用》课程中的创新实践&#xff0c;为解决普遍教学痛点提供了可借鉴的“平台化…