transformer位置编码研究相关的综述、论文

在这里插入图片描述


一、权威综述

  1. 《利用位置编码实现长度外推》 (腾讯云开发者社区, 2024)

    • 系统分析绝对/相对位置编码(APE/RPE)在长序列外推中的技术演进,涵盖RoPE、Alibi、Xpos等优化方案,讨论位置插值、NTK-aware缩放等扩展方法。
  2. 《Handling Very Long Contexts in Neural Machine Translation》 (Peng et al., 2024)

    • 聚焦机器翻译中的长上下文处理,对比RoPE、动态NTK、FIRE等编码策略与注意力机制的协同优化。
  3. 《A Review of Location Encoding for GeoAI》 (Mai et al., 2022)

    • 从地理AI视角总结位置编码的通用方法,分类单点编码与聚合编码模型,分析多尺度、方向感知等特性。

二、奠基性经典论文

  1. 《Attention is All You Need》 (Vaswani et al., 2017)

    • 开创性工作:首次提出正弦函数固定位置编码(公式:$ PE_{(pos,2i)} = \sin(pos/10000^{2i/d}) $, $ PE_{(pos,2i+1)} = \cos $),解决Transformer无时序感知问题。
  2. 《Self-Attention with Relative Position Representations》 (Shaw et al., 2018)

    • 引入相对位置编码,通过偏移量建模词间距离,在翻译任务中显著提升效果(+1.3 BLEU)。
  3. 《Transformer-XL》 (Dai et al., 2019)

    • 提出片段递归机制与改进的位置编码方案,解决长依赖断裂问题,支持超长序列建模。

三、位置编码的改进方法

(1)相对位置编码优化
  • 旋转位置编码(RoPE)

    • Su et al., 2021:通过复数旋转嵌入实现相对位置感知,提升外推能力(被BERT、LLaMA等广泛采用)。
    • 《ComRoPE》 :参数化旋转角度矩阵,平衡计算效率与表达能力(对比见表7)。
  • 《HoPE》 (Chen et al., 2025)

    • 提出无衰减位置编码,解决RoPE长程依赖衰减问题,增强上下文建模。
(2)动态与条件编码
  • 条件位置编码(CPE)
    • 周新民等(2024):在卷积网络中引入轻量级深度卷积生成位置编码,适应任意分辨率输入。
  • 《3DPPE》 (Shu et al., 2023)
    • 多摄像头3D检测中,设计3D点位置编码统一图像与Query表征,提升细粒度位置感知。
(3)新型数学结构编码
  • 《Algebraic Positional Encodings》 (Kogkalidis et al.)
    • 基于代数结构构建通用位置编码,支持树形/图结构数据,在翻译与图像任务中验证有效性。
  • 《Wavelet Positional Encoding》 (冈佑依等, 2025)
    • 小波变换替代正弦函数,增强噪声鲁棒性与多尺度分解能力,长序列外推优于RoPE。

四、跨领域应用

  1. 计算机视觉

    • ViT(Dosovitskiy et al., 2020):采用可学习位置编码,可视化显示相邻图像块编码相似性(行列结构)。
    • 《Dyadic Mamba》 (Tanke et al., 2025):扩散模型中位置编码增强人体动作生成的时序一致性。
  2. 地理信息科学

    • 《CSP》 (Mai et al., 2023):自监督对比学习框架下,球面位置编码提升地理空间表征学习。
  3. 神经科学交叉

    • 丁鼐团队(2025):论证大脑序列加工机制与Transformer位置编码的相似性,揭示神经振荡编码原理。

五、关键对比与分析

  1. 方法分类与特性

    类型代表方法优势局限
    绝对位置编码 (APE)正弦函数 (Vaswani)简单、无需训练外推能力弱
    相对位置编码 (RPE)RoPE, Alibi长程依赖建模强计算复杂度高
    条件编码 (CPE)深度卷积 (周新民)适应任意输入尺寸任务依赖性强
  2. 性能对比

    • 行人重识别任务:相对位置编码(RPE)比绝对编码(APE)在CUHK03数据集上mAP提升1% 。
    • 小目标检测:条件位置编码(CPE)优于局部增强编码(LePE),特征融合更高效 [[29]-[31]]。

六、最新研究趋势(2024-2025)

  1. 无损外推技术
    • 蚂蚁AI团队提出位置插值(PI)与NTK-aware RoPE,解决大模型外推缺陷 。
  2. 生物启发式编码
    • 前额叶皮层(PFC)启发的动态位置编码,增强任务上下文理解 。
  3. 多模态统一编码
    • RFpeptides框架(David Baker, 2025)将循环相对位置编码用于大环肽结构生成 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/89436.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/89436.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

垂直领域AI智能体开发指南:用Bright Data MCP接入智能体攻克数据难关

垂直领域AI智能体开发指南:用Bright Data MCP接入智能体攻克数据难关 一、智能体时代的数据困局1.1 AI智能体的爆发式增长1.2 开发者遭遇的"数据瓶颈" 二、Bright Data MCP:智能体的数据引擎2.1 重新定义数据获取方式2.2 支持的核心场景2.3 四…

Stable Diffusion 项目实战落地:从0到1 掌握ControlNet 第三篇: 打造光影字形的创意秘技-文字与自然共舞

上一篇,我们一起玩转了 野外光影字,是不是被那种自然和光影交织的效果惊艳到啦? 如果你错过了那篇文章,别担心,赶紧点这里补课:Stable Diffusion 项目实战落地:从0到1 掌握ControlNet:打造光影文字 第二篇 - 野外光影字。 今天,我们将一起做一个 生成的嵌入式文字【…

CppCon 2018 学习:Feather: A Modern C++ Web Development Framework

你这段内容罗列的是 Web 开发中的几个基础概念和组成模块,下面我逐一用中文进行解释,并理清它们之间的关系: 基础概念说明 1. HTTP Server(HTTP服务器) 是一个监听 HTTP 请求并返回响应的程序。主要功能&#xff1a…

武汉大学机器人学院启航:一场颠覆性的产教融合实验,如何重塑中国智造未来?

当百年学府按下“产业加速键”,教育革命的号角已经吹响 2025年7月,武汉大学一纸公告震动教育界与科技圈——成立机器人学院,携手小米、宇树等硬科技领军企业,聘请10位产业教授入驻。这绝非一次常规的校企合作,而是一场…

QT记事本4——下拉框修改值后解决乱码问题

下拉框修改值后解决乱码问题 void Widget::onCurrentIndexChanged(int index) {qDebug()<<index;//索引从0开始qDebug()<<ui->comboBox->currentText();//切换编码时&#xff0c;首先清空当前的文本框ui->textEdit->clear();if(file.isOpen()){//仅在…

““ ‘‘ C++

在C中&#xff0c;"" 和 的含义完全不同&#xff0c;只有""是空字符串&#xff0c;而既不是空字符串&#xff0c;也不能表示空字符&#xff0c;具体区别如下&#xff1a; 1. 双引号 ""&#xff1a;空字符串字面量 类型&#xff1a;const char…

电脑远程控制另一台电脑无法连接怎么办

电脑远程控制另一台电脑无法连接怎么办&#xff1f;远程桌面连接是远程管理另一台计算机时比较常用的方式&#xff0c;在进行电脑远程控制时&#xff0c;无法连接是常见的问题&#xff0c;以下将从多个方面分析原因并提供解决方法。如果涉及无公网IP目标主机需要远程桌面连接的…

springboot3.2/3.4+rocketmq5.3.3测试程序的基本例子

想测试下springboot新版中与rocketmq5.3.3的配置使用&#xff0c;今天尝试了下&#xff0c;记录如下&#xff1a; 1、首先springboot使用3.2.7&#xff0c;rocketmq使用5.3.3&#xff0c;且使用docker部署rocketmq。 docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/do…

深入剖析AI大模型:TensorFlow

今天来聊一下TensorFlow&#xff0c;任何一门技术我建议还是从它出现的背景开始。因为你这就知道它存在的原因是什么。2015 年&#xff0c;Google 开源了深度学习框架 TensorFlow&#xff0c;一经推出便在学术界和工业界引起巨大反响。当时&#xff0c;深度学习模型的复杂度与日…

【数字后端】- tcbn28hpcplusbwp30p140,标准单元库命名含义

tcbn28: 代表工艺类型是台积电28nm工艺hpcplus: 代表工艺平台是HPC BWP: 其中B代表标准单元的类型是 “standard” base cell&#xff1b;W代表N-well 工艺&#xff0c;放置在 P-substrate上&#xff1b;P表示该 cell 使用的是 P-type transistor layout orientation&#xff1…

KNN算法详解及Scikit-learn API使用指南

一、KNN算法介绍 K最近邻(K-Nearest Neighbor, KNN)算法是机器学习中最简单、最直观的分类算法之一。它既可以用于分类问题&#xff0c;也可以用于回归问题。KNN是一种基于实例的学习(instance-based learning)或懒惰学习(lazy learning)算法&#xff0c;因为它不会从训练数据…

【PMP】项目管理入门:从基础到环境的体系化拆解

不少技术管理者都有过这样的困惑&#xff1a; 明明按流程做了项目管理&#xff0c;结果还是延期、超预算&#xff1f;需求变更多到炸&#xff0c;到底是客户无理还是自己没管好&#xff1f;跨部门协作像“推皮球”&#xff0c;资源总不到位&#xff1f; 其实&#xff0c;项目失…

【Web前端】简易轮播图显示(源代码+解析+知识点)

一、简易轮播图源代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>简易轮播图显示</title><style type"text/css">*{margin: 0 auto;padding: 0;/* 全局重置边距 */}p{text-align: center;fon…

电机试验平台的用途及实验范围

电机试验平台是一种专门设计用来对各种类型的电机进行测试和分析的设备。在现代工业中&#xff0c;电机作为驱动力的重要组成部分&#xff0c;在各个领域发挥着至关重要的作用。而为了确保电机的性能、效率和可靠性达到最佳水平&#xff0c;需要进行各种试验和测试。电机试验平…

自主/智能的本质内涵及其相互关系

论文地址&#xff1a;无人机的自主与智能控制 - 中国知网 (cnki.net) 自主/智能的本质内涵及其相互关系准则是无人机设计的基本原则。从一般意义上讲。自主与智能是两个不同范畴的概念。自主表达的是行为方式&#xff0c;由自身决策完成某行为则称之为“自主”。“智能”…

nignx+Tomcat+NFS负载均衡加共享储存服务脚本

本次使有4台主机&#xff0c;系统均为centos7&#xff0c;1台nignx&#xff0c;2台tomcat&#xff0c;1台nfs 第一台配置nignx脚本 #!/bin/bash #xiexianghu 2025.6.24 #nignx配置脚本&#xff0c;centos7#关闭防火墙和SElinux systemctl stop firewalld && system…

zabbix监控Centos 服务器

1.2&#xff1a;本地安装 先使用wget下载RPM安装包 然后解压安装 >>wget https://repo.zabbix.com/zabbix/6.4/rhel/8/x86_64/zabbix-agent2-6.4.21-release1.el8.x86_64.rpm ##### CENTOS 8 使用这一条>>rpm -ivh zabbix-agent2-6.4.21-release1.el8.x86_64.r…

中科米堆三维扫描仪3D扫描压力阀抄数设计

三维扫描技术正以数字化手段重塑传统制造流程。以压力阀这类精密流体控制元件为例&#xff0c;其内部流道结构的几何精度直接影响设备运行稳定性与使用寿命。 在传统设计模式下&#xff0c;压力阀的逆向工程需经历手工测绘、二维图纸绘制、三维建模转换等多个环节。技术人员需…

Python pytz 时区使用举例

Python pytz 时区使用举例 ⏰ 一、Python代码实现&#xff1a;时区转换与时间比较 import pytz from datetime import datetime# 1. 获取当前UTC时间 utc_now datetime.now(pytz.utc)# 2. 转换为目标时区&#xff08;示例&#xff1a;上海和纽约&#xff09; shanghai_tz py…

vue中ref()和reactive()区别

好的&#xff0c;这是 Vue 3 中 ref() 和 reactive() 这两个核心响应式 API 之间区别的详细解释。 简单来说&#xff0c;它们是创建响应式数据的两种方式&#xff0c;主要区别在于处理的数据类型和访问数据的方式。 核心区别速查表 特性ref()reactive()适用类型✅ 任何类型 …