【LLM05---位置编码】

文章目录

  • 位置编码
    • 引出
    • Transformer中位置编码方法:Sinusoidal functions
    • 两个重要性质

位置编码

最近在学习位置编码,想找一个讲的比较透彻的文章或视频,找了半天,满意的一个也没有,所以自己记录一下。
注意,本篇笔记只作为自己的学习记录用,更好的讲解的内容请看链接:位置编码

引出

我们首先来理解下什么是位置编码?在Transformer架构中,由于自注意力机制固有的特性,某一个token计算和其他token之间的注意力权重时,是不受距离限制的,也就是说他是一视同仁的,比如,我吃饭了和吃饭了我,这两句话中我这个token的表示是一样的。这个并不符合现实的情况,因为实际情况是我们会考虑距离,一般距离越远,它的重要性就变弱了。所以我们还需要加入有关位置的信息,再来计算注意力分数,更为合理。
那应该怎么表示位置信息呢?transformer中token是按顺序输入的,一种最直观的想法就是我们将第一个token的位置表示为1,第二个的表示为2,一次类推,但是这样表示会有什么问题呢?首先,这个的表示是在一个离散的空间内表示,如果训练是在有限的长度下训练,再扩展到训练以外的长度时性能会大幅下降,也就是外推性很差。另一个原因是,当token数量变得很多的时候,其值会变得非常大。
那有没有更好的方法来表示呢?我们想想,位置编码,我们想让他具备什么性质:

第一个:能够表示绝对的位置信息
第二个,能够表示不同token之间的相对的位置信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85053.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85053.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pikachu——ssrf

概念补充: 内网:局部范围内的私有网络,比如局域网就是一个小范围的内网,有私有IP,并且内网受防火墙的保护,外网无法直接访问 外网:全球范围的公共网络,公有ip ip地址:…

java 设计模式_行为型_13备忘录模式

13.备忘录模式 模式定义 备忘录模式(Memento Pattern)模式的定义:在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态,以便以后当需要时能将该对象恢复到原先保存的状态。该模式又…

创建postgres数据库失败

异常: postgres# CREATE DATABASE deepflow_agent2; ERROR: source database "template1" is being accessed by other users DETAIL: There are 2 other sessions using the database 如何断联这两个session 要解决 PostgreSQL 中因 template1 数据库…

卧安机器人闯上市:深耕AI具身技术,“大疆教父”李泽湘再落子

撰稿|行星 来源|贝多财经 又一家机器人企业,现身港股资本市场。贝多财经了解到,卧安机器人(深圳)股份有限公司(下称“卧安机器人”)于6月8日向港交所提交了上市申请,国泰君安国际、华泰国际为…

基于GNU Radio Companion搭建的AM信号实验

目录 实验目的和要求 1、AM收发系统仿真和实际接收 调制过程 2、Lab 2.1实验过程AM信号的产生 AM信号的表达式 调制深度的概念 3、Lab2.2 AM信号的解调 4、Lab2.3 实际用RTLSDR接收一个ISM(912MHz)频率的AM信号,信号的AM调制为音频为48KHz的音乐信号 实验目的和要求 …

【go】(仅思路)使用go实现一款简单的关系型数据库gosql

文章目录 背景给navicate回复版本号建立连接数据库list新建数据库删除数据库删除表查询表数据总结roadmapnavicate连接适配 背景 使用go很容易编译出一个二进制文件,已经有人用纯go实现了sqlite3的驱动(go get github.com/glebarez/sqlite)&…

echarts开发 | 数据可视化 -- 第二篇 echart进阶配置项学习

文章目录 一、数据标记(markLine、markPoint)1.1 markLine(标记线)1.2 markPoint(标记点) 一、数据标记(markLine、markPoint) 支持两类标记方式 markLine 和 markPoint 分别用于标示趋势线和特定数据点,以加强数据表…

Kafka数据写入流程源码深度剖析(Broker篇)

在Kafka数据写入流程中,Broker端负责接收客户端发送的消息,并将其持久化存储,是整个流程的关键环节。本文将深入Kafka Broker的源码,详细解析消息接收、处理和存储的具体实现。 一、网络请求接收与解析 Broker通过Processor线程…

名称 深度学习(监督学习) Iteration 一次 mini-batch 前向+反向传播更新 Epoch 所有数据集训练一遍。这两个概念不一样吗?

你的问题非常专业,确实容易混淆,下面我用科研术语 通俗比喻来清晰地区分: ✅ 简明对照表:Iteration vs. Epoch(在监督学习中) 名称专业术语解释通俗理解是否属于监督学习(深度学习&#xff09…

Blender 模型下载

1.CGModel网站 https://www.cgmodel.com/ 免费模型数量多,国风类题材的模型多,中文搜索方便 2.Blender官网 3.3d溜溜网 https://3d.3d66.com/ 4.free3d.com free3d.com

Spring涉及的设计模式以及实际使用场景(含代码)

Spring涉及的设计模式以及实际使用场景(含代码) 1.工厂模式(Factory Pattern) 作用: 隐藏对象创建的细节,通过工厂类统一管理对象的实例化。 场景:Spring的BeanFactory和ApplicationContext是工厂模式的典型实现。 // 通过App…

ROM 只读存储器 随机存取

ROM(Read-Only Memory,只读存储器)的存取方式为: ✅ 随机存取方式(Random Access) 尽管“ROM”强调的是“只读”,它的数据访问方式与 RAM 类似,都是随机存取。 🔍 解释如…

opensuse解决微信无法登录的问题

思路启发 https://forum.suse.org.cn/t/topic/17183/2 实际解决 https://forum.suse.org.cn/t/topic/17204/5 解决方法 先安装 sudo zypper install execstackcd /opt/wechatsudo bash -c execstack -c ./*.so

Adixen ASM380 氦气检漏仪 阿尔卡特Mobile high performance helium leak detector

Adixen ASM380 氦气检漏仪 阿尔卡特Mobile high performance helium leak detector

堆的自动管理

由于程序员必须编写出到分配和释放存储器的明确的调用,所以用m a l l o c和f r e e完成指针的动态分配和重新分配是管理堆的手工( m a n u a l )方法。相反地,运行时栈则是由调用序列自动地( a u t o m a t i c a l l y )管理。在一种需要完全动态的运行…

智能出入库管理系统:自动化管控平台

部队装备库室智能管控系统是集智能化、集成化、网络化于一体的综合管理系统,由智慧营区库室综合管控平台、出入口控制子系统、智能QD柜子系统、装备物资管理子系统、视频监控系统、入侵报警子系统、环境监测子系统等七大核心子系统构成。各子系统通过数据自动交互&a…

归并排序:高效分治的艺术

归并排序(Merge Sort)原理详解 归并排序是一种基于分治法(Divide and Conquer)的高效排序算法,由冯诺依曼于1945年提出。它的核心思想是将大问题分解为小问题,解决小问题后再合并结果。 核心原理 1. 分治策略(Divide and Conquer) 分(Divide):将无序数组递归地拆…

知识库建设方案有哪些?全面解析

知识库建设方案主要包括本地部署方案、云端在线方案、混合部署方案。其中,云端在线方案以其灵活性、实时更新能力和低维护成本,逐渐成为大多数企业的首选方案。云端在线方案可随时随地提供实时更新的知识内容,确保企业员工和客户始终获得最新…

政务大厅智能引导系统:基于数字孪生的技术架构与实践

本文面向政务信息化开发者、系统集成工程师、智能导视领域技术人员。解析政务大厅智能引导系统的技术实现路径,提供从定位导航到数据驱动的技术方案,助力解决传统导视系统效率低下、体验不佳的技术痛点。 一、技术架构全景:从物理空间到数字映…

java设计模式[2]之创建型模式

文章目录 一 创建型模式1.1 单例模式的设计与实现1.1.1 饿汉式模式1.1.2 懒汉式单例模式1.1.3 懒汉式单例模式完善1.1.4 双重检测锁式1.1.4.1 volatile关键字1.1.4.2 在双重检查锁定中的作用 1.1.5 静态内部类式单例模式1.1.6 枚举式单例模式1.1.7 反射暴力破解解决方案1.1.8 序…