RoPE, 2D RoPE, 3D RoPE和复数

旋转位置编码是一种用于Transformer架构中的位置编码方法,从复数的角度来看,其主要利用了复数的乘法性质来实现位置编码,以下作为学习记录:

1. 旋转位置编码

1)对于输入序列的每个位置的嵌入向量x_i,将嵌入向量分到(1, d)和(d,n)两部分,即:

x_i=(x_i^1,x_i^2,x_i^3,...,x_i^d,x_i^{n-d+1},x_i^{n-d+2},...,x_i^{n-1},x_i^n)

2)复数表示:将分割后的位置嵌入向量两两组合为复数形式:z_i^k=x_i^{2k}+x_i^{2k+1}*i

3)旋转位置:对于每个位置i,定义一个旋转角度:

\theta_i=\theta \times i

\theta是一个预定义的常数,通过复数乘法来实现对复数向量的旋转变换,对每个嵌入向量进行旋转变换:

z_i^k \mapsto z_i^k \times (\theta_i*i)

根据欧拉公式:e^{i\theta}=cos(\theta)+i\times sin(\theta)

将上式展开后得:

(x_i^{2k}+i*x_i^{2k+1})\times (cos(i\theta)+i*sin(i\theta))

即实现对向量的旋转操作。

4)理解:通过对query和key向量进行上述复数旋转操作,使得模型能够捕捉到相对位置信息。因为旋转矩阵的乘积对应角度的相加,所以经过旋转后的query和key向量的内积包含了相对位置的信息。

5)理解旋转矩阵的乘积等于对应角度的相加,旋转矩阵形式:

R(\theta)=\bigl(\begin{smallmatrix} cos(\theta) & -sin(\theta)\\ sin(\theta) & cos(\theta) \end{smallmatrix}\bigr)

理解旋转矩阵的乘积就等于对应角度的相加:

R(\theta) \times R(\beta)=\bigl(\begin{smallmatrix} cos(\theta) & -sin(\theta)\\ sin(\theta) & cos(\theta) \end{smallmatrix}\bigr) \times \bigl(\begin{smallmatrix} cos(\beta) & -sin(\beta)\\ sin(\beta) & cos(\beta) \end{smallmatrix}\bigr)

将上式展开,可得:

R(\theta) \times R(\beta)=R(\theta+\beta)

几何意义:两次旋转的效果等于一次旋转。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/96716.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/96716.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java静态代理与动态代理实战解析

Java静态代理 示例代码 接口: package com.ssg.aop.interfaces;public interface MathCalculator { // 加法public int add(int a, int b); }接口实现类: package com.ssg.aop.impl; import com.ssg.aop.interfaces.MathCalculator;public class Math…

如何排查服务器DNS解析失败的问题

服务器 DNS 解析失败会导致无法访问域名(如 google.com),可能影响服务器的正常运行。以下是排查 DNS 解析失败问题的详细步骤,包括可能的原因、诊断方法和解决方案。1. 原因分析DNS 解析失败通常由以下原因引起:DNS 配…

音视频面试题集锦第 32 期

音视频学习群:https://gjzkeyframe.github.io/posts/wechat-group/ 音视频面试题集锦第 32 期: 1、请详细解释 H.264 编码中的熵编码方式(CAVLC 和 CABAC),它们的区别和适用场景是什么?2、解释 H.264/H.2…

最大矩形+单调栈

题目&#xff1a;思考1&#xff1a; 利用柱形图最大矩形的思想对于矩阵的每一行看作是柱形图的地基对每一行&#xff08;认定为柱形图&#xff09;执行找最大矩形 实现&#xff1a; class Solution { public:int maximalRectangle(vector<vector<char>>& matri…

NewsNow搭建喂饭级教程

大家在自媒体写文章里遇到最难的问题便是查找题材了&#xff0c;随便选择的题材没多少人会去看&#xff0c;平台也不会给流量推送&#xff0c;所以&#xff0c;只有围绕热门题材去进行文章创作&#xff0c;才能得到平台的重点推送以及大家的关注&#xff01; 在做这个功能前&a…

大疆无人机平台 资源开放

一、部署包说明 目前基于大疆上云api开发的平台经过多轮测试&#xff0c;已经有了个稳定的版本&#xff0c;并且有山东滨州、陕西西安、河南郑州、上海、广东深圳、广东广州、宁夏以及安徽等各地的用户使用在公路巡检、森林防火、电力巡查等行业中。 下面将会先将部署包免费开…

恶劣天气下漏检率↓79%!陌讯多模态时序融合算法在道路事故识别的实战优化

原创声明 本文为原创技术解析文章&#xff0c;核心技术参数与架构设计引用自 “陌讯技术白皮书&#xff08;道路事故识别专项版&#xff09;”&#xff0c;禁止任何形式的抄袭与转载。文中代码示例、性能数据均来自实测验证&#xff0c;技术描述已完成差异化重写&#xff0c;不…

visual studio编译的软件查找所依赖的运行库方法

使用visual studio编译生成的exe软件&#xff0c;在单独运行的时候&#xff0c;总是会提示vs运行库找不到&#xff0c;比如vcruntime140.dll&#xff0c;msvcp140d.dll等找不到&#xff0c;此时如果在开发电脑中查找&#xff0c;会找出一堆各种版本的同名字动态库来&#xff0c…

ARINC 825板卡的应用

ARINC概览AEEC&#xff08;航空电子工程委员会&#xff09;是SAE ITC&#xff08;SAE行业技术联盟&#xff09;的下属机构之一&#xff0c;旨在为航空业制定标准。SAE ITC下设多个委员会和分委员会&#xff0c;各委员会设工作组负责制定航空电子设备和系统的各种标准。其中&…

试析微剧《云端爱人》:AI时代的数字爱情寓言与情感觉醒

《云端爱人》作为一部聚焦人工智能与人类情感关系的短剧&#xff0c;其文本价值远超普通都市爱情题材&#xff0c;可视为数字化时代的情感寓言。以下从社会镜像、叙事张力、哲学思辨三个维度展开深度解析&#xff1a;一、「赛博恋爱」的社会预演&#xff1a;当代人的情感代偿机…

多线程下单例如何保证

系列文章目录 文章目录系列文章目录一、方法1、懒汉式双重检查锁2、饿汉式静态初始化3、使用静态内部类&#xff08;懒汉式的一种变体&#xff09;4、使用 AtomicReference5、使用依赖注入框架&#xff0c;Spring一、方法 懒汉式&#xff1a;延迟加载&#xff0c;第一次调用get…

Java的数字计算

目录 一、基本数据类型 二、包装类 三、精确计算&#xff1a;BigDecimal 四、大整数&#xff1a;BigInteger 五、实际应用示例&#xff1a;RSA 加密算法核心计算 一、基本数据类型 这是进行数字计算最高效的方式&#xff0c;直接在栈上分配内存。它们分为整数型和浮点型。…

手写MyBatis第32弹-设计模式实战:Builder模式在MyBatis框架中的精妙应用

&#x1f942;(❁◡❁)您的点赞&#x1f44d;➕评论&#x1f4dd;➕收藏⭐是作者创作的最大动力&#x1f91e;&#x1f496;&#x1f4d5;&#x1f389;&#x1f525; 支持我&#xff1a;点赞&#x1f44d;收藏⭐️留言&#x1f4dd;欢迎留言讨论&#x1f525;&#x1f525;&am…

小白成长之路-k8s原理(一)

文章目录前言一、k8s组件1.1master部分1.2node节点二、网络2.1网络模型2.2CNI2.3流程2.4网络解决方案2.5网络模式三、资源清单3.1概述3.2常见的资源3.3资源清单的编写四、Pod4.1概念图4.2pause4.3概述4.4pod生命周期4.5pod探针4.6钩子4.7pod控制器1.RC 控制器2.RS控制器3.deplo…

木筏求生 PC/手机双端 单机+联机(Raft)免安装中文版

网盘链接&#xff1a; 木筏求生 免安装中文版 名称&#xff1a;木筏求生 PC/手机双端 单机联机&#xff08;Raft&#xff09;免安装中文版 描述&#xff1a; 无论是独自一人还是与朋友一起&#xff0c;你的任务是在危险的海洋中度过一场史诗般的海洋冒险 &#xff01;收集…

vue中v-show 和 v-if 指令的区别

v-show 和 v-if 是 Vue.js 中两个非常重要的指令&#xff0c;都用于条件性地显示或隐藏元素&#xff0c;但它们的实现方式和适用场景有本质区别。 简单来说&#xff0c;最核心的区别是&#xff1a; v-if 是 “真正的”条件渲染&#xff0c;它会确保在切换过程中条件块内的事件监…

Linux中iptables命令

iptables 命令详解iptables 是 Linux 系统内核级防火墙工具&#xff0c;用于配置、维护和检查 IPv4 数据包过滤规则&#xff08;IPv6 使用 ip6tables&#xff09;。以下是核心用法&#xff1a;一、基本概念表&#xff08;Tables&#xff09;filter&#xff1a;默认表&#xff0…

【springboot 技术代码】集成mongodb 详细步骤

SpringBoot 深度集成 MongoDB 详细步骤1. MongoDB 简介与 SpringBoot 集成概述1.1 SpringBoot 集成 MongoDB 的优势2. 环境准备与依赖配置2.1 版本兼容性矩阵2.2 详细依赖配置2.3 详细配置说明2.3.1 单节点配置2.3.2 集群配置3. 实体映射与集合管理3.1 详细实体类注解3.2 索引管…

云计算-K8s 运维:Python SDK 操作 Job/Deployment/Pod+RBAC 权限配置及自定义 Pod 调度器实战

简介 在 Kubernetes 运维中,自动化资源管理与定制化调度是提升效率的核心需求,而 Python SDK 是实现这一目标的关键工具。本次围绕 K8s Python SDK 展开全场景实战,以 “代码 + 效果” 双维度,覆盖 5 大核心运维场景,Job 自动化创建(先清理重名资源再部署计算任务)、De…

Excel 转化成JSON

Excel 转化成JSON import pandas as pd import json import osdef excel_to_json(excel_path, sheet_name0, orientrecords, save_pathNone):"""将Excel文件转换为JSON格式并可选择保存到文件参数:excel_path: Excel文件路径sheet_name: 工作表名称或索引&#…