【学习笔记】2.2 Encoder-Decoder

参考资料:https://github.com/datawhalechina/happy-llm 

在 Transformer 中,使用注意力机制的是其两个核心组件——Encoder(编码器)和 Decoder(解码器)。

2.2.1 Seq2Seq 模型

Seq2Seq(序列到序列) 是一种经典的自然语言处理(NLP)任务,其目标是将一个自然语言序列 input = (x_1, x_2, x_3...x_n)映射到另一个可能不等长的自然语言序列 output = (y_1, y_2, y_3...y_m)。Seq2Seq 是 NLP 中最通用的任务形式,几乎所有 NLP 任务都可以视为 Seq2Seq 的特例,例如:

  • 文本分类:输出长度为 1 的目标序列(m=1)。

  • 词性标注:输出与输入序列等长的目标序列(m=n)。

  • 机器翻译:输入和输出序列长度可能不同,例如将中文句子“今天天气真好”翻译为英文句子“Today is a good day.”。

Seq2Seq 的一般思路:
  1. 编码(Encoding)

    • 将输入的自然语言序列通过隐藏层编码成能够表征语义的向量(或矩阵),可以理解为更复杂的词向量表示。

  2. 解码(Decoding)

    • 将编码得到的向量或矩阵通过隐藏层输出,再解码成对应的自然语言目标序列。

Transformer 模型:

Transformer 是一个经典的 Seq2Seq 模型,最初被应用于机器翻译任务。它由 Encoder(编码器)Decoder(解码器) 组成,具体结构如下:

  • Encoder

    • 包含多个(通常是 6 个)Encoder Layer。

    • 输入源序列进入 Encoder 进行编码,编码结果输出给 Decoder。

  • Decoder

    • 包含多个(通常是 6 个)Decoder Layer。

    • 接收 Encoder 的编码结果,并逐步解码生成目标序列。

Encoder 和 Decoder 内部传统神经网络的经典结构有:前馈神经网络(FNN)、层归一化(Layer Norm)和残差连接(Residual Connection)。

2.2.2 前馈神经网络

前馈神经网络(Feed Forward Neural Network,FFN) 是一种简单的全连接网络结构,用于对输入数据进行非线性变换。

FFN 的结构:
  1. 两个线性层

    • 输入经过第一个线性层(全连接层)进行变换。

    • 输出再经过第二个线性层进行进一步变换。

  2. ReLU 激活函数

    • 在两个线性层之间加入 ReLU 激活函数,引入非线性。

    • ReLU 激活函数的公式为:ReLU(x)=max(0,x)。

  3. Dropout 层

    • 在 FFN 的输出后加入 Dropout 层,用于防止过拟合。

    • Dropout 通过随机丢弃一部分神经元的输出,增强模型的泛化能力。

class MLP(nn.Module):'''前馈神经网络'''def __init__(self, dim: int, hidden_dim: int, dropout: float):super().__init__()# 定义第一层线性变换,从输入维度到隐藏维度self.w1 = nn.Linear(dim, hidden_dim, bias=False)# 定义第二层线性变换,从隐藏维度到输入维度self.w2 = nn.Linear(hidden_dim, dim, bias=False)# 定义dropout层,用于防止过拟合self.dropout = nn.Dropout(dropout)def forward(self, x):# 前向传播函数# 首先,输入x通过第一层线性变换和RELU激活函数# 然后,结果乘以输入x通过第三层线性变换的结果# 最后,通过第二层线性变换和dropout层return self.dropout(self.w2(F.relu(self.w1(x))))

2.2.3 层归一化

层归一化(Layer Norm) 是一种深度学习中的归一化操作,目的是让不同层的输入分布更加一致,从而稳定训练过程并提高模型性能。它与批归一化(Batch Norm)的主要区别在于统计量的计算方式。

归一化的必要性
  1. 梯度爆炸/消失问题

    • 深度神经网络中,每一层的输入是上一层的输出,随着层数增加,输入分布可能因参数变化而发生较大改变。

    • 这种分布变化会导致梯度不稳定,影响模型的收敛速度和性能。

  2. 预测误差

    • 预测的条件分布始终相同,但各层输出分布不同,导致预测误差增大。

批归一化(Batch Norm)的局限性
  1. 小批量(mini-batch)问题

    • 当 mini-batch 较小时,计算的均值和方差不能反映全局统计分布,导致效果变差。

  2. 时间维度问题

    • 对于 RNN,不同句子的同一时间步分布可能不同,Batch Norm 的归一化失去意义。

  3. 训练与测试不一致

    • 训练时需要保存每个 step 的统计信息,测试时可能出现比训练集更长的句子,导致统计量缺失。

  4. 计算开销

    • 每个 step 都需要保存和计算 batch 统计量,耗时且耗力。

代码实现:

class LayerNorm(nn.Module):''' Layer Norm 层'''def __init__(self, features, eps=1e-6):super(LayerNorm, self).__init__()# 线性矩阵做映射self.a_2 = nn.Parameter(torch.ones(features))self.b_2 = nn.Parameter(torch.zeros(features))self.eps = epsdef forward(self, x):# 在统计每个样本所有维度的值,求均值和方差mean = x.mean(-1, keepdim=True) # mean: [bsz, max_len, 1]std = x.std(-1, keepdim=True) # std: [bsz, max_len, 1]# 注意这里也在最后一个维度发生了广播return self.a_2 * (x - mean) / (std + self.eps) + self.b_2

2.2.4 残差连接

在 Transformer 模型中,残差连接被广泛应用于每个子层(如多头自注意力层和前馈神经网络层)。其主要作用是:

  1. 避免梯度消失:允许梯度直接回传到更深层,减少梯度消失问题。

  2. 增强信息流动:让高层专注于学习输入与输出之间的残差,而不是直接学习输出。

  3. 提高训练效率:通过直接传递输入,减少深层网络的训练难度。

Transformer 中的实现

在 Transformer 的 Encoder 和 Decoder 中,每个子层的输出不仅包括上一层的输出,还包括上一层的输入。具体公式如下:

  1. 多头自注意力层

    x = x + MultiHeadSelfAttention(LayerNorm(x))
    • 输入 x 首先经过层归一化(LayerNorm)。

    • 然后通过多头自注意力层(MultiHeadSelfAttention)。

    • 最后将注意力层的输出与原始输入 x 相加,形成残差连接。

  2. 前馈神经网络层

    output = x + FNN(LayerNorm(x))
    • 输入 x 首先经过层归一化(LayerNorm)。

    • 然后通过前馈神经网络(FNN)。

    • 最后将 FNN 的输出与原始输入 x 相加,形成残差连接。

代码实现
# 注意力计算
h = x + self.attention.forward(self.attention_norm(x))
# 经过前馈神经网络
out = h + self.feed_forward.forward(self.fnn_norm(h))

2.2.5 Encoder

Transformer 的 Encoder 是由多个 Encoder Layer 组成的模块,每个 Encoder Layer 包含两个主要部分:

  1. 多头自注意力层(Multi-Head Attention)

    • 用于捕捉输入序列内部的依赖关系。

  2. 前馈神经网络(Feed Forward Network,FFN)

    • 用于对自注意力层的输出进行非线性变换。

每个子层(多头自注意力层和前馈神经网络层)都使用 残差连接层归一化(Layer Norm)

Encoder Layer 的实现
class EncoderLayer(nn.Module):'''Encoder层'''def __init__(self, args):super().__init__()# 一个 Layer 中有两个 LayerNorm,分别在 Attention 之前和 MLP 之前self.attention_norm = LayerNorm(args.n_embd)# Encoder 不需要掩码,传入 is_causal=Falseself.attention = MultiHeadAttention(args, is_causal=False)self.fnn_norm = LayerNorm(args.n_embd)self.feed_forward = MLP(args)def forward(self, x):# Layer Normnorm_x = self.attention_norm(x)# 自注意力h = x + self.attention.forward(norm_x, norm_x, norm_x)# 经过前馈神经网络out = h + self.feed_forward.forward(self.fnn_norm(h))return out
  • 输入x 是输入序列的嵌入表示。

  • 层归一化:在多头自注意力层和前馈神经网络之前分别应用层归一化。

  • 残差连接:每个子层的输出加上原始输入,形成残差连接。

  • 多头自注意力self.attention 对归一化后的输入进行自注意力计算。

  • 前馈神经网络self.feed_forward 对归一化后的输入进行非线性变换。

Encoder 的实现

整个 Encoder 由多个 Encoder Layer 组成,并在最后加入一个 Layer Norm 实现规范化:

class Encoder(nn.Module):'''Encoder 块'''def __init__(self, args):super(Encoder, self).__init__() # 一个 Encoder 由 N 个 Encoder Layer 组成self.layers = nn.ModuleList([EncoderLayer(args) for _ in range(args.n_layer)])self.norm = LayerNorm(args.n_embd)def forward(self, x):"分别通过 N 层 Encoder Layer"for layer in self.layers:x = layer(x)return self.norm(x)
  • 输入x 是输入序列的嵌入表示。

  • 多层 Encoder Layer:输入依次通过每个 Encoder Layer。

  • 最终层归一化:在所有 Encoder Layer 之后,对输出进行一次层归一化。

输出

通过 Encoder 的输出是输入序列编码后的结果,可以用于后续的解码器(Decoder)或其他任务。

2.2.6 Decoder

Transformer 的 Decoder 由多个 Decoder Layer 组成,每个 Decoder Layer 包含三个主要部分:

  1. 掩码自注意力层(Masked Multi-Head Attention)

    • 使用掩码(Mask)确保每个 token 只能使用该 token 之前的注意力分数。

  2. 多头注意力层(Multi-Head Attention)

    • 使用 Encoder 的输出作为 Key 和 Value,当前 Decoder 的输出作为 Query,计算注意力分数。

  3. 前馈神经网络(Feed Forward Network,FFN)

    • 对多头注意力层的输出进行非线性变换。

每个子层(掩码自注意力层、多头注意力层和前馈神经网络层)都使用 残差连接层归一化(Layer Norm)

Decoder Layer 的实现
class DecoderLayer(nn.Module):'''解码层'''def __init__(self, args):super().__init__()# 一个 Layer 中有三个 LayerNorm,分别在 Mask Attention 之前、Self Attention 之前和 MLP 之前self.attention_norm_1 = LayerNorm(args.n_embd)# Decoder 的第一个部分是 Mask Attention,传入 is_causal=Trueself.mask_attention = MultiHeadAttention(args, is_causal=True)self.attention_norm_2 = LayerNorm(args.n_embd)# Decoder 的第二个部分是 类似于 Encoder 的 Attention,传入 is_causal=Falseself.attention = MultiHeadAttention(args, is_causal=False)self.ffn_norm = LayerNorm(args.n_embd)# 第三个部分是 MLPself.feed_forward = MLP(args)def forward(self, x, enc_out):# Layer Normnorm_x = self.attention_norm_1(x)# 掩码自注意力x = x + self.mask_attention.forward(norm_x, norm_x, norm_x)# 多头注意力norm_x = self.attention_norm_2(x)h = x + self.attention.forward(norm_x, enc_out, enc_out)# 经过前馈神经网络out = h + self.feed_forward.forward(self.fnn_norm(h))return out
  • 输入

    • x 是 Decoder 的输入序列的嵌入表示。

    • enc_out 是 Encoder 的输出。

  • 多层 Decoder Layer:输入依次通过每个 Decoder Layer。

  • 最终层归一化:在所有 Decoder Layer 之后,对输出进行一次层归一化。

完整的 Transformer 模型

将 Encoder 和 Decoder 拼接起来,再加入 Embedding 层,就可以搭建出完整的 Transformer 模型:

class Decoder(nn.Module):'''解码器'''def __init__(self, args):super(Decoder, self).__init__() # 一个 Decoder 由 N 个 Decoder Layer 组成self.layers = nn.ModuleList([DecoderLayer(args) for _ in range(args.n_layer)])self.norm = LayerNorm(args.n_embd)def forward(self, x, enc_out):"Pass the input (and mask) through each layer in turn."for layer in self.layers:x = layer(x, enc_out)return self.norm(x)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/87376.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/87376.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

# 材料力学押题

材料力学押题 文章目录 材料力学押题第一题第二题组合变形弯曲变形 第一题 Q 求力作用的销钉位置的竖直偏移距离。 S 方法一:能量方法 材料应变能计算为: U ∫ 内力 2 2 刚度 d A U\int \frac{\text{内力}^2}{2\times 刚度}\text{d}A U∫2刚度内力2​dA 克拉珀龙原理&…

uniapp项目之小兔鲜儿小程序商城(一) 项目介绍,技术栈,小程序的基础架构,封装拦截器和请求函数

文章目录 一.项目介绍和前置内容1.重要链接2.技术栈 二.创建uniapp项目1.使用HBuilderX创建2.使用命令行创建3.如何使用vscode开发uniapp项目?step1:把项目拉入vscode,开始下相关插件step2:ts类型校验step3:设置json文件可以允许注释 4.pages.json文件的作用是什么?5.示例:在…

Uniapp H5端SEO优化全攻略:提升搜索引擎排名与流量

在移动互联网时代,H5页面因其跨平台、低成本、易传播的特性,成为许多企业的首选。Uniapp作为一款优秀的前端跨端开发框架,能够快速开发H5、小程序、App等多端应用。然而,由于Uniapp默认采用SPA(单页应用)架…

一[3.3]、ubuntu18.04环境 利用 yolov8 实现列车轨道检测,并提取正确的轨道线【全网最详细】

一、参考文献 https://blog.csdn.net/u010117029/category_12977729.html 一[3.2]、ubuntu18.04环境 利用 yolov8 训练开源列车数据集,并实现列车轨道检测【全网最详细】-CSDN博客 火车轨道铁路轨道检测识别(附带Python源码+详细解析)_轨道点云提取铁轨代码-CSDN博客

pp-ocrv5中的改进-跨阶段特征融合(CSP-PAN)以及在 Neck 部分引入 CSP-PAN后为何就能解决小文本漏检问题?

好的,我们来详细解析一下 PP-OCRv5 中的**跨阶段特征融合(CSP-PAN)**改进,以及它如何有效解决小文本漏检问题。 背景:PP-OCR 的 Neck 部分与 PAN 在 PP-OCRv3 及之前的版本中,Neck 部分使用的是标准的 **…

【数据分析四:Data Preprocessing】数据预处理

一、数据预处理 直接收集的数据通常是“脏的”: 不完整、不准确、不一致 数据预处理是进行大数据的分析和挖掘的工作中占工作量最大的一个步骤(80%) 二、处理缺失值 处理缺失数据的方法:首先确认缺失数据的影响 数据删除&#x…

一起来入门深度学习知识体系

前言 什么是深度学习?它有什么魔力? 想象一个机器人能识别人脸、写诗、翻译语言、甚至和你聊天。它是怎么学会这些能力的?答案正是——深度学习(Deep Learning)。 简单来说,深度学习就像是教会一台计算机…

Prompt+Agent+LLM:半导体炉管设备健康评估的落地实战

引言 在高端制造业的核心场景中,设备健康管理正面临前所未有的挑战。以半导体制造为例,一台价值数百万美元的炉管设备意外停机,可能导致整条产线瘫痪、晶圆批次报废,单日损失可达千万级。传统基于阈值规则的监控系统难以捕捉早期…

PostgreSQL的扩展bloom

PostgreSQL的扩展bloom 一、扩展概述 bloom 是 PostgreSQL 提供的一个基于**布隆过滤器(Bloom Filter)**的索引扩展,特别适合多列任意组合查询的优化场景。 二、核心特性 特性描述优势多列索引单索引支持多列组合减少索引数量模糊匹配高效处理和IN查询优于B-tre…

算法与数据结构学习之旅:从入门到进阶

在计算机科学的浩瀚宇宙中,算法与数据结构如同闪耀的恒星,驱动着整个程序世界的运转。无论是手机上流畅运行的 APP,还是搜索引擎瞬间返回的海量结果,背后都离不开算法与数据结构的精妙设计。对于想要深入探索计算机领域的开发者和…

C++map和set类(简介)

文章目录 一、关联式容器二、键值对三、树形结构的关联式容器3.1 set类的简介3.2 set的接口3.2.1 set的模版参数列表3.2.2 set的构造3.2.3 set的迭代器3.2.4 set的容量3.2.5 set的修改操作 3.3 set的使用案例3.4 multiset类的介绍3.5 multiset的使用案例3.6 map类的简介3.7 map…

圆柱电池自动化升级:面垫机如何破解生产痛点?

在圆柱电池的生产流程中,面垫(绝缘垫片)的安装是保障电池安全与性能的关键环节。传统手工操作不仅效率低,还容易出现面垫偏移、漏贴等问题,影响产品一致性。圆柱电池自动面垫机的出现,通过自动化技术解决了…

【AI Study】第四天,Pandas(1)- 基础知识

文章概要 本文详细介绍 Pandas 库的基础知识,包括: Pandas 的基本概念和特点安装和配置方法核心数据结构(Series 和 DataFrame)各种数据类型的处理方法实际应用示例 什么是 Pandas Pandas 是 Python 中最流行的数据分析库之一…

重构气血经络的数学模型:气血经络级联控制系统核心方程

从融智学视域,重构气血经络的数学模型 摘要: 融智学视域,通过三元耦合框架,重构气血经络模型,建立跨学科认知体系。五大分支协同运作:数学融智学构建纤维丛模型,逻辑融智学建立防歧义语义网&…

python爬虫:某网站价格数字加密破解

文章目录 前言一、案例二、破解流程1.原理2.找到woff文件3.分析woff文件4.代码实现1.转化woff文件2.绘图并ocr识别3.映射数据 三、总结 前言 有时我们在进行网页抓取采集数据时,有些重要的数据比如说价格,数量等信息会进行加密,通过复制或者简单的采集是…

DigitalOcean 携手 AMD 推出 AMD Instinct™ MI300X GPU Droplet,加速 AI 创新

近日,DigitalOcean(NYS:DOCN)作为全球最简单易用的可扩展云平台,宣布与 AMD 建立合作,为 DigitalOcean 客户提供 AMD Instinct™ GPU,以 AMD Instinct™ MI300X GPU Droplet 的形式支持其 AI 工作负载。此举…

小白畅通Linux之旅-----DNS项目实战配置

目录 一、项目要求 1、正反向解析配置 2、主从配置 二、脚本编写配置 1、主服务器脚本编写 2、从服务器脚本编写 三、项目检测 1、正反向解析检测 (1)主服务器脚本启动 (2)测试主机配置 (3)正反…

Codigger:探索数字工作新架构

在软件开发与数字工作领域,技术迭代的脚步从未停歇,开发者和系统管理员都在寻找更高效的工具和平台。Codigger 作为一项创新技术成果,凭借其独特的定位和架构,在行业内逐渐崭露头角。 Codigger “分布式操作系统”,它…

微信中 qrcode 生成二维码长按无效果的解决方案

引言 我们先来看这样一段代码 <divid"qrcode"ref"qrcode"class"bind-code-img"style"height: 180px;width: 180px;margin-top: 22px;display: none; "></div> new QRCode("qrcode", {width: 210,height: 210,t…

《网络安全与防护》作业复习

填空题 1. 网络数据库与数据安全专项作业 填空题解析&#xff1a; 数据库安全的“三大核心目标”是 完整性&#xff1b;保密性&#xff1b;可用性 解释&#xff1a;数据库安全的三个核心目标是确保数据的完整性、保密性以及可用性&#xff0c;即保护数据不被篡改、未经授权访…