认识Transformer架构

认识Transformer架构

diannao/2025/7/25 10:23:05/文章来源:https://blog.csdn.net/weixin_74178589/article/details/149583410

一.前言

前面我们介绍了RNN相关系列的模型，在当今大模型时代大家认识一下就好了，而本章节我们是要来介绍一下重中之重的Transformer模型，本章节就来介绍一下他的架构，了解Transformer模型的作⽤以及了解Transformer总体架构图中各个组成部分的名称。

二.Transformer模型的作用

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, ⽂本⽣成等. 同时⼜可以构建预训练语⾔模型，⽤于不同任务的迁移学习.

在接下来的架构分析中, 我们将假设使⽤Transformer模型架构处理从⼀种语⾔⽂本到另⼀种语⾔⽂本的翻译⼯作, 因此很多命名⽅式遵循NLP中的规则. ⽐如: Embeddding层将称作⽂本嵌⼊层, Embedding层产⽣的张量称为词嵌⼊张量, 它的最后⼀维将称作词向量等

三.Transformer总体架构图

3.1 Transformer总体架构

输⼊部分
输出部分
编码器部分
解码器部分

3.2 输⼊部分包含

源⽂本嵌⼊层及其位置编码器
⽬标⽂本嵌⼊层及其位置编码器

3.3 输出部分包含

线性层
softmax层

3.4 编码器部分

由N个编码器层堆叠⽽成
每个编码器层由两个⼦层连接结构组成
第⼀个⼦层连接结构包括⼀个多头⾃注意⼒⼦层和规范化层以及⼀个残差连接
第⼆个⼦层连接结构包括⼀个前馈全连接⼦层和规范化层以及⼀个残差连接

3.5 解码器部分

由N个解码器层堆叠⽽成
每个解码器层由三个⼦层连接结构组成
第⼀个⼦层连接结构包括⼀个多头⾃注意⼒⼦层和规范化层以及⼀个残差连接
第⼆个⼦层连接结构包括⼀个多头注意⼒⼦层和规范化层以及⼀个残差连接
第三个⼦层连接结构包括⼀个前馈全连接⼦层和规范化层以及⼀个残差连接

四.总结

本章节主要是介绍了一下Transformer的架构，后续还会继续更新相关知识，期待大家的点赞关注加收藏

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/diannao/92440.shtml
繁体地址，请注明出处：http://hk.pswp.cn/diannao/92440.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python学习之存数据

Python学习之存数据

在得到了对应的数据之后可以考虑用文件或者数据库的方式把内容持久化下来方便之后的分析，此时可以使用pymongo库，寥寥几行代码，数据就已经很好地存储下来。（此处可参考我们之前发的文章)在 Python 中引入：import pymon…

阅读更多...

PointLLM - ECCV 2024 Best Paper Candidate

PointLLM - ECCV 2024 Best Paper Candidate

https://github.com/OpenRobotLab/PointLLM PointLLM: Empowering Large Language Models to Understand Point Clouds 核心问题对比两种让大型语言模型（LLM）“看懂”三维世界的方法间接方法：通过2D图像进行猜测。这是目前比较常见但充…

阅读更多...

前端-CSS-day6

前端-CSS-day6

目录 1、相对定位 2、绝对定位 3、绝对定位-居中 4、固定定位 5、堆叠顺序 6、CSS精灵-基本使用 7、案例-京东服务 8、字体图标-体验 9、使用字体图标 10、垂直对齐方式 11、过渡 12、透明度 13、光标类型 14、综合案例-轮播图 1、相对定位 <!DOCTYPE html>…

阅读更多...

在离线 Ubuntu 22.04机器上运行 ddkj_portainer-cn 镜像其他相关操作也可以复刻 docker

在离线 Ubuntu 22.04机器上运行 ddkj_portainer-cn 镜像其他相关操作也可以复刻 docker

以下有免费的4090云主机提供ubuntu22.04系统的其他入门实践操作地址：星宇科技 | GPU服务器高性能云主机云服务器-登录相关兑换码星宇社区---4090算力卡免费体验、共享开发社区-CSDN博客兑换码要是过期了，可以私信我获取最新兑换码！&a…

阅读更多...

数据结构系列之二叉搜索树

数据结构系列之二叉搜索树

前言这是我数据结构系列的第一篇，其余C语言模拟的数据结构均会在开学之后跟随老师上课而更新（虽然我已经写完了），更新这块主要是因为要由二叉搜索树讲到AVL树再讲到红黑树，因为map和set的底层是红黑树，就…

阅读更多...

系统架构师：软件工程-思维导图

系统架构师：软件工程-思维导图

软件工程的定义软件工程是一门系统性、规范化的工程学科，它将工程化的方法、工具和技术应用于软件的开发、运行与维护全生命周期，旨在解决软件复杂度带来的质量、成本和效率问题。其核心目标是通过结构化方法与技术实践，确保软件系统…

阅读更多...

Django 入门详解：从零开始构建你的第一个 Web 应用

Django 入门详解：从零开始构建你的第一个 Web 应用

Django 是一个高级的 Python Web 框架，鼓励快速开发和干净、实用的设计。它遵循“不要重复造轮子（Dont Repeat Yourself, DRY）”的原则，内置了诸如用户认证、内容管理、表单处理等常见功能，非常适合构建内容驱动的网站…

阅读更多...

[3-02-02].第04节：开发应用 - RequestMapping注解的属性2

[3-02-02].第04节：开发应用 - RequestMapping注解的属性2

SpringMVC学习大纲注解的源码： 三、注解的params属性 3.1.params属性的理解： params属性用来通过设置请求参数来映射请求。对于RequestMapping注解来说： params属性也是一个数组，不过要求请求参数必须和params数组中要求的所有…

阅读更多...

layui表格多选及选中

layui表格多选及选中

多选获取选中数据//获取选中行数据 var tbData table.cache["tablist2"]; var chkDatas tbData.filter(s > s.LAY_CHECKED true); if (vm.isEmpty(chkDatas) || chkDatas.length 0) {os.error("未选中数据！");return; }单选选中样式及数…

阅读更多...

卡尔曼滤波数据融合

卡尔曼滤波数据融合

状态向量：位置和速度 [x, y, vx, vy]预测阶段：用加速度估算速度和位置（IMU数据）更新阶段：用 GPS 位置修正漂移（每隔一定时间才来一次）import numpy as np# 时间步长（秒） …

阅读更多...

Qwen3-8B 的 TTFT 性能分析：16K 与 32K 输入 Prompt 的推算公式与底层原理详解

Qwen3-8B 的 TTFT 性能分析：16K 与 32K 输入 Prompt 的推算公式与底层原理详解

一、模型概述与上下文支持能力Qwen3-8B 是通义实验室推出的 80 亿参数大语言模型，支持 32,768 token 的上下文长度。其核心优化点包括：FP8 量化技术：通过将权重从 32-bit 压缩至 8-bit，显著降低显存占用并提升推理效率&#xff0…

阅读更多...

【Spring Cloud Gateway 实战系列】基础篇：路由、断言、过滤器、负载均衡深度解析

【Spring Cloud Gateway 实战系列】基础篇：路由、断言、过滤器、负载均衡深度解析

一、引言在微服务架构中，API网关是流量的统一入口，承担着路由转发、流量管控、安全防护等核心职责。Spring Cloud Gateway作为Spring官方推荐的第二代网关，基于Spring 5.0、Spring Boot 2.0和Project Reactor构建，提供了高性能的响…

阅读更多...

基于springboot的乡村旅游在线服务系统/乡村旅游网站

基于springboot的乡村旅游在线服务系统/乡村旅游网站

管理员：登录，个人中心，用户管理，景点类型管理，旅游景点管理， 酒店信息管理，旅游线路管理，门票预订管理，酒店预订管理，旅游攻略管理，社区互动&…

阅读更多...

JavaWeb笔记12

JavaWeb笔记12

登录的问题：用户两次登录后会生成新旧两个令牌，此时旧的不应该生效要使旧的失效：令牌主动失效机制登录成功后，给浏览器响应令牌的同时，把该令牌存储到redis中 LoginInterceptor拦截器中，需要验证浏览器携带…

阅读更多...

算法牢笼与思想飞地：在人工智能时代守卫灵魂的疆域

算法牢笼与思想飞地：在人工智能时代守卫灵魂的疆域

当手指在键盘上敲下“帮我写一篇关于XX的文章”，当屏幕上的“智能助手”瞬间输出结构完整、引经据典的文字，当算法为我们精准推送“你可能感兴趣”的一切——我们正被一种前所未有的认知便利所包围。然而，在这层包裹着效率与舒适的华丽外衣之…

阅读更多...

WebAssembly浏览器指纹识别技术——实验评估与应用展望（下篇）

WebAssembly浏览器指纹识别技术——实验评估与应用展望（下篇）

引言在上篇文章中，我们详细阐述了基于WebAssembly的浏览器指纹识别技术的理论基础和核心方法。本文将进一步展示该技术在实际应用中的表现，通过大规模的实验验证其有效性，并深入探讨相应的防护策略。同时，我们也将客观分析该技术的应用前景与潜在风险，为相关领域的研究和…

阅读更多...

kafka--基础知识点--5.4--max.in.flight.requests.per.connection

kafka--基础知识点--5.4--max.in.flight.requests.per.connection

一、参数定义 max.in.flight.requests.per.connection 是 Kafka 生产者客户端配置参数，用于控制生产者与单个 Broker 连接中未确认请求的最大数量。简单来说，它限制了生产者在等待之前发送的消息确认（ACK）时，可以同时向…

阅读更多...

【Spring AI 0基础教程】1、基础篇环境搭建 - 智能天气预报助手

【Spring AI 0基础教程】1、基础篇环境搭建 - 智能天气预报助手

基础篇 | 环境搭建 - 智能天气预报助手一、什么是 Spring AI Spring AI (https://spring.io/projects/spring-ai)]是 Spring 官方于 2023 年推出的 AI 应用开发框架，它如同 AI 世界的"Spring 生态连接器"，致力于简化开发集成了 AI 功能的应…

阅读更多...

深入浅出MyBatis缓存：如何让数据库交互飞起来

深入浅出MyBatis缓存：如何让数据库交互飞起来

深入浅出MyBatis缓存：如何让数据库交互飞起来你是否遇到过这样的场景：系统在高并发下响应缓慢，数据库监控显示CPU飙升，日志里充斥着大量重复SQL？作为开发者，我曾亲眼目睹一个简单的配置查询拖垮整个系统。今…

阅读更多...

【计算机考研（408）- 数据结构】绪论

【计算机考研（408）- 数据结构】绪论

绪论基本概念（理解即可） 数据是信息的载体，是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。（For Example : 声音/图像/字符串等） 数据元…

阅读更多...

最新文章