Transformer相关

Transformer相关

diannao/2025/8/3 21:14:56/文章来源:https://blog.csdn.net/mistydou/article/details/148178364

问题汇总

- Transformer的结构
- 自注意力机制（Self-Attention）
- - 多头自注意力
  - 前馈神经网络（Feed-Forward Network, FFN）
  - 位置编码
  - 编码器（Encoder）和解码器（Decoder）
  - Multi-Query Attention（多查询注意力机制）
  - Grouped-query Attention（分组查询注意力机制）
  - FlashAttention
- 与注意力机制相关的问题
- - 为什么要除以dk的开根号？
  - Transformer为何使用多头注意力机制？
  - 为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？
  - Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别？
  - CNN用注意力机制也可以提取全局特征，为什么用Transformer
- 与transformer架构相关的问题
- - tokenizer的作用？为什么bert要用专门的tokenizer？
  - Transformer为什么优于RNN和LSTM，好在哪？

Transformer的结构

Transformer 的整体结构是一个编码器-解码器架构，每个编码器和解码器都由多个层堆叠而成。每层都由自注意力机制和前馈神经网络（Feed-Forward Network, FFN）组成。此外，还有残差连接（Residual Connection）和层归一化（Layer Normalization）

自注意力机制（Self-Attention）

自注意力机制是 Transformer 的核心创新，它的主要作用是对输入序列中的每个词进行加权求和，考虑到其他所有词对当前词的影响，从而获得词与词之间的全局关系。
具体而言，对于输入的每个单词，生成三个向量：查询（Query），键（Key），值（Value）。然后计算查询和键的相似度（通过点积计算），并根据这个相似度给值加权，最后生成输出。
时间和空间复杂度是 O(N^2)，其中 N 是序列长度。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/diannao/85339.shtml
繁体地址，请注明出处：http://hk.pswp.cn/diannao/85339.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【位运算】两整数之和（medium）

【位运算】两整数之和（medium）

两整数之和（medium） 题⽬描述：解法（位运算）：代码复杂度分析题⽬链接： 371. 两整数之和题⽬描述： 给你两个整数 a 和 b ，不使⽤运算符和 - ，计算并返回两…

阅读更多...

现代密码学入门 | 现代密码学核心特点介绍

现代密码学入门 | 现代密码学核心特点介绍

在当今互联互通的世界中，数字数据在全球范围内不断流动，安全通信和数据保护的需求从未如此迫切。现代密码学作为数字防御的先锋，提供了一系列复杂的技术和算法，以保护信息免受窥探和恶意行为的侵害。现代密码学是从其古典前身—…

阅读更多...

Redis分布式锁深度解析与最佳实践

Redis分布式锁深度解析与最佳实践

1 2 Redis分布式锁实现方式确实是经典问题，下面我将系统性地分析这个方案及其演进过程，并给出生产级的解决方案。一、基础方案及其缺陷 1. 初始实现方式 SETNX lock_key unique_value # 尝试获取锁 EXPIRE lock_key 30 # 设置过期时间 …

阅读更多...

Hive自定义函数案例（UDF、UDAF、UDTF）

Hive自定义函数案例（UDF、UDAF、UDTF）

目录前提条件背景概念及适用场景 UDF（User-Defined Function） 概念适用场景 UDAF（User-Defined Aggregate Function） 概念适用场景 UDTF（User-Defined Table-Generating Function） 概念适…

阅读更多...

Go语言的原子操作

Go语言的原子操作

当我们想要对某个变量并发安全的修改，除了使用官方提供的mutex，还可以使用sync/atomic包的原子操作，它能够保证对变量的读取或修改期间不被其他的协程所影响。 Golang提供的原子操作都是非侵入式的，由标准库sync/atmoic包提供&am…

阅读更多...

QNAP MEMOS 域名访问 SSL（Lucky）

QNAP MEMOS 域名访问 SSL（Lucky）

注意：下述是通过ssh、docker-compose方式安装docker的，不是直接在container station中安装的哈！！！ 一、编辑docker-compose.yml文件用“#”号标识的，在保存文件的时候建议去掉，不然有时候会出…

阅读更多...

C#实现远程锁屏

C#实现远程锁屏

前言这是一次提前下班没有锁屏进而引发的一次思考后的产物，思考的主要场景是当人离开电脑后，怎么能控制电脑锁屏，避免屏幕上的聊天记录被曝光。首先想到通过系统的电源计划设置闲置超时时间熄屏，这可能是最接近场景的解决方案&a…

阅读更多...

[Protobuf]常见数据类型以及使用注意事项

[Protobuf]常见数据类型以及使用注意事项

[Protobuf]常见数据类型以及使用注意事项水墨不写bug 文章目录一、基本数据类型1、字段2、字段的修饰规则二、自定义数据类型1、message类型2、enum类型3、Any类型4、oneof类型5、map类型三、小工具1.hexdump2.decode 四、注意事项一、基本数据类型 protobuf 支持多种基础…

阅读更多...

JS分支和循环

JS分支和循环

程序的执行顺序在程序开发中，程序有三种不同的执行顺序 1.顺序执行 2.分支执行 3.循环执行程序的代码块 <script>//一个代码块{var num11var num22var num3num1num2}//一个休想var info{name:"chen",age:18} 1.if分支语句（单分支语句&…

阅读更多...

Android 开发 Kotlin 全局大喇叭与广播机制

Android 开发 Kotlin 全局大喇叭与广播机制

在 Android 开发中，广播机制就像一个神通广大的 “消息快递员”，承担着在不同组件间传递信息的重任。Kotlin 语言的简洁优雅更使其在广播机制的应用中大放异彩。今天，就让我们一同深入探索 Android 开发中 Kotlin 全局大喇叭与广播机制的奥秘…

阅读更多...

rabbitmq AI复习

rabbitmq AI复习

RabbitMq rabbitmq 🧑‍💻 User 帮我复习rabbitmq相关知识，我是一个经验丰富的程序员 🤖 Assistant 好的！很高兴能通过这种方式帮你复习或学习 RabbitMQ 的知识。按照你说的流程，我们从完全零基础开始&…

阅读更多...

计算机视觉---YOLOv5

计算机视觉---YOLOv5

YOLOv5理论讲解一、YOLOv5 整体架构解析 YOLOv5 延续了 YOLO 系列的单阶段目标检测框架，包含主干网络（Backbone）、颈部网络（Neck） 和检测头（Head），但在结构设计上更注重轻量化…

阅读更多...

C++多重继承详解与实战解析

C++多重继承详解与实战解析

#include <iostream> using namespace std; //基类，父类 class ClassA { public:void displayA() {std::cout << "Displaying ClassA" << std::endl;}void testFunc(){std::cout << "testFunc ClassA" << std::e…

阅读更多...

单细胞注释前沿：CASSIA——无参考、可解释、自动化细胞注释的大语言模型

单细胞注释前沿：CASSIA——无参考、可解释、自动化细胞注释的大语言模型

细胞类型注释是单细胞RNA-seq分析的重要步骤，目前有许多注释方法。大多数注释方法都需要计算和特定领域专业知识的结合，而且经常产生不一致的结果，难以解释。大语言模型有可能在减少人工输入和提高准确性的同时扩大可访问性，但现有…

阅读更多...

STM32Cubemx-H7-17-麦克纳姆轮驱动

STM32Cubemx-H7-17-麦克纳姆轮驱动

前言 --末尾右总体的.c和.h 本篇文章把麦克纳姆轮的代码封装到.c和.h，使用者只需要根据轮子正转的方向，在.h处修改定义方向引脚，把轮子都统一正向后，后面的轮子驱动就可以正常了，然后直接调用函数驱动即可。设置满…

阅读更多...

文档核心结构优化（程序C++...）

文档核心结构优化（程序C++...）

文档核心结构优化一、文档核心结构优化二、C关键特性详解框架2.1 从C到C的范式迁移三、深度代码解析模板3.1 现代C特性分层解析四、C vs C 关键差异矩阵五、交互式文档设计策略5.1 三维学习路径5.2 代码缺陷互动区六、现代C特性演进图七、性能优化可视化呈现（深…

阅读更多...

PyTorch ——torchvision数据集使用

PyTorch ——torchvision数据集使用

如果下载的很慢，可以试试下面这个

阅读更多...

纯前端实现图片伪3D视差效果

纯前端实现图片伪3D视差效果

作者：vivo 互联网前端团队- Su Ning 本文通过depth-anything获取图片的深度图，同时基于pixi.js，通过着色器编程，实现了通过深度图驱动的伪3D效果。该方案支持鼠标/手势与手机陀螺仪双模式交互，在保证性能的同时&#x…

阅读更多...

英语写作中“专注于”focus on、concentrate的用法

英语写作中“专注于”focus on、concentrate的用法

Focus on在论文写作中常用，指出研究点，例如： There are three approaches to achieving ID authentication. Our study will focus on ……（有三种途径实现身份认证，我们的研究专注于……） concentrate &…

阅读更多...

go环境配置

go环境配置

下载对应版本的 go 版本 https://go.dev/dl/ 配置 vim ~/.zshrc export GOROOT/usr/local/go export PATH$PATH:$GOROOT/binsource ~/.zshrc >>>>>> go versiongoland 配置： 🔍 一、什么是GOPATH？ GOPATH 是旧的项目结…

阅读更多...

最新文章