深入剖析通用目标跟踪：一项综述

摘要

通用目标跟踪仍是计算机视觉领域一项重要且具有挑战性的任务，其难点在于复杂的时空动态变化，尤其在存在遮挡、相似干扰物和外观变化的情况下。过去二十年间，为应对这些挑战，研究者提出了多种跟踪范式，包括基于孪生网络的跟踪器、判别式跟踪器以及近期突出的基于Transformer的方法。尽管现有综述论文或聚焦单一类别，或广泛覆盖多类以追踪进展，但本文对三类方法均进行了全面综述，尤其强调快速发展的基于Transformer的方法。我们通过定性与定量比较，分析了各类方法的核心设计原则、创新点及局限性。本研究提出了一种新的分类方式，并提供了代表性方法的统一可视化与表格对比。此外，我们从多角度梳理现有跟踪器，总结主要评估基准，突出基于Transformer的跟踪方法因其强大的时空建模能力而取得的快速进展。

关键词：通用目标跟踪，基于孪生网络的跟踪器，基于判别式的跟踪器，基于Transformer的跟踪器

1 引言

视觉目标跟踪（VOT）是计算机视觉中持续在视频帧间定位目标物体的任务。多年来，已发展出多种跟踪范式，包括通用目标跟踪（GOT）、多目标跟踪、基于运动的跟踪、基于外观的跟踪以及视频目标分割等。本文聚焦通用目标跟踪（GOT），也称单目标跟踪（SOT），其以与类别无关的方式运行。在此设定下，跟踪器在首帧接收目标的初始标注（通常为边界框），并需在后续所有帧中定位目标，无需额外监督。

基于外观模型的通用目标跟踪面临若干基本挑战，包括目标外观、尺度、姿态的变化，以及遮挡、形变、运动模糊、干扰物和背景杂波的存在。尽管存在这些困难，基于外观的跟踪方法因其广泛的适用性（如自动驾驶、视频监控、医学诊断和机器人导航等领域）而受到越来越多的关注。
在这里插入图片描述

如图1所示，跟踪算法的演进始于手工设计的判别式方法，其依赖相关滤波器和在线优化以区分目标与背景[1-4]。随着深度学习的兴起，判别式跟踪器开始引入卷积神经网络（CNN）进行特征提取，常用于训练分类器或回归器以区分目标与背景[5-11]。另一方面，基于孪生网络的跟踪器通过计算初始目标与候选区域的相似度得分，实现模板匹配[12-21]。这两类范式并行发展，重点通过更深的骨干网络[13]、干扰物感知机制[4,11,13]和先进的模型更新策略[9,11]来提升鲁棒性、适应性和外观建模能力。

近年来，随着Transformer架构的引入，该领域取得了更显著的进展。Transformer通过自注意力与交叉注意力机制，实现了对空间和时间依赖性的强大全局建模。如图1的时间线所示，许多先进跟踪器现已采用Transformer，既可作为独立模型[22-44]，也可作为融合Transformer模块与判别式或孪生组件的混合架构[45-50]。本综述回顾并分析了三类主要方法的代表性工作：I. 基于判别式的跟踪器，II. 基于孪生网络的跟踪器，III. 完全基于Transformer和混合Transformer的跟踪器。

在强调近期进展的同时，我们也纳入了早期基础工作，以追溯设计策略和架构趋势的演进。据我们所知，这是首篇联合综述并比较这三类通用目标跟踪器的综合性论文，涵盖多维度分析，包括外观建模、设计亮点、更新策略和整体跟踪框架。此外，我们系统分析了各类方法解决的挑战、为克服挑战提出的创新点、可能引入的缺陷，以及它们在模型架构中的贡献层级。除架构与方法学比较外，我们还分析了常用训练与评估数据集。通过重构代表性跟踪器的标准化架构图，我们进行了结构化对比，便于直接可视化分析其设计原则与创新点。

本研究的主要贡献如下：

I. 跟踪范式的综合分类
我们提出了一种统一的分类体系，将GOT跟踪器系统地划分为三类核心范式：基于孪生网络的、基于判别式的、完全及混合Transformer的。据我们所知，这是首篇联合分析这三类方法（包括基础与近期方法）的综述，提供了比现有综述更广泛、更包容的视角。
II. 统一架构框架的结构化对比
对于每类代表性跟踪器（包括仅理论探讨的方法），我们重构了标准化的可视化框架，以促进一致的结构分析。通过突出关键架构元素并清晰展示各类范式间的设计演进，这种统一表示使跟踪器设计的直接比较更加便捷。
III. 多维度比较分析与性能对比
我们从多维度（如外观模型、骨干架构、设计亮点、重点和创新贡献）对跟踪器进行了彻底分析。系统考察了各类方法解决的挑战、为克服挑战提出的创新点，以及可能引入的缺陷。此外，我们分析了用于训练与评估的跟踪数据集，并比较了跟踪器的性能，阐明了准确性与效率之间的权衡。

本文其余部分组织如下：第2节回顾GOT领域的现有综述论文，并突出本研究的差异。第3节概述GOT方法，将其划分为四类：判别式跟踪器（3.1节）、孪生网络跟踪器（3.2节）、Transformer跟踪器（3.3节），其中Transformer跟踪器进一步分为混合式（3.3.1节）和完全Transformer式（3.3.2节）。第4节总结了常用跟踪数据集与评估指标，并从准确性和效率角度对综述的跟踪器进行了评估与比较。第5节从架构与功能视角对GOT方法进行了综合讨论，重点介绍了近期先进设计和新兴趋势（如分割辅助跟踪）。第6节讨论了VOT的应用。最后，第7节总结全文并展望未来研究方向。

在这里插入图片描述

2 背景

通用视觉目标跟踪（GOT）已得到广泛研究，若干综述回顾了其从传统方法到深度学习及更高阶技术的发展历程，如表1所示。

Marvasti-Zadeh等人[51]分析了基于深度学习的跟踪器，包括基于卷积神经网络（CNN）、循环神经网络（RNN）和生成对抗网络（GAN）的方法，覆盖多个维度。但其对架构设计的分类不够详细。[52]以时间线为视角，将跟踪器分为相关滤波类与深度学习类模型（含CNN、RNN及基于孪生网络的跟踪器）。Li等人[53]详细探讨了深度学习如何解决跟踪中的四大核心挑战，并综述了单目标与多目标跟踪方法，但缺乏架构层面的深入分析。[54]聚焦跟踪器的在线更新策略，强调动态环境适应性的重要性，但其研究主要针对传统与基于CNN的孪生网络及判别式跟踪器，尤其关注跟踪过程中的自适应能力。

研究[55]特别关注判别相关滤波器（DCF）与孪生网络两大主流范式，仅对此两类方法的共性与特异性挑战进行了详细分析。[56]则将范围缩小至基于孪生网络的跟踪，深入考察其设计原则、优势与局限性，未涉及判别式及基于Transformer的方法。Zhang等人[57]采用了更广泛的视角，涵盖基于孪生网络、判别式及早期Transformer的模型，但未对各类范式的架构与方法创新进行明确细分。

此外，Thangavel等人[58]对基于Transformer的跟踪器进行了实验分析，将其分为CNN-Transformer混合模型与完全基于Transformer的跟踪器，但未系统比较此类方法与传统判别式或孪生网络范式的差异。最后，Abdelaziz等人[59]探索了非传统方法，如自回归模型、生成模型、自监督学习、强化学习及元学习在跟踪中的应用，虽突出了新兴方向，但未涉及标准跟踪架构或范式的演进。

现有综述虽为特定范式（如DCF、孪生网络或基于Transformer的跟踪器）或新兴学习范式提供了重要见解，但据我们所知，尚无综述提出统一分类体系，系统性涵盖GOT跟踪器的所有主要范式：基于孪生网络的、基于判别式的及完全/混合Transformer模型。此外，现有研究也未从多维度（如外观建模、骨干架构、模板更新策略、创新贡献、缺陷及架构级创新）对跟踪器进行全面分析。

本综述填补了这一空白，通过引入统一、细粒度的分类与比较框架，覆盖近期GOT跟踪器的所有主要类别。我们提供了跨范式的一致性结构分析，系统比较了各类方法在准确率与效率间的经验权衡，并指出了现代目标跟踪中的趋势、挑战与开放研究方向。

3 通用视觉目标跟踪

基于检测的通用视觉目标跟踪旨在估计视频序列中任意目标对象的轨迹，仅需首帧给定的初始位置。过去十年间，GOT技术为应对遮挡、目标形变、尺度变化、光照变化及背景干扰等关键挑战，取得了显著进展。因此，跟踪算法需兼顾目标表征的短时与长时自适应，以保持对剧烈外观变化的鲁棒性。

跟踪问题可分解为分类任务与目标状态估计任务的结合[8]。分类分支旨在鲁棒确定目标的粗略位置，状态估计分支则细化预测以准确获取完整目标状态（通常用边界框表示）。高性能跟踪器需学习兼具判别性与泛化性的特征表示及对应分类器：判别性使跟踪器能区分真实目标与杂乱或欺骗性背景区域，泛化性则使其能容忍被跟踪对象的外观变化（即使目标类别未知）[15]。

与计算机视觉其他领域类似，跟踪方法已从依赖手工特征演进为利用深度特征，近期更发展为基于Transformer的表征。本综述根据核心在线学习机制，将现代GOT跟踪器分为三大范式：

判别式跟踪器：通过判别式公式构建外观模型，近期进展利用离线训练的更具代表性特征显著提升了准确率。
基于孪生网络的跟踪器：通过离线训练学习对外观变化鲁棒的特征表示，推理时提取模板与搜索区域的特征，并通过固定匹配操作（如互相关）定位目标。
基于Transformer的跟踪器：通过建模长程依赖提升跟踪性能，Transformer模块可与孪生网络或判别式结构以混合方式集成，或构成完全基于Transformer的跟踪架构。

底层架构对跟踪的鲁棒性、效率与适应性起关键作用。各范式内方法的演进旨在解决关键问题，如在线自适应、代表性特征提取、准确目标状态估计、鲁棒外观建模、有效干扰物处理及可靠匹配策略。以下小节将回顾各类别的代表性方法，突出其架构创新、优势与局限性。

3.1 基于判别式的跟踪

判别式跟踪器将跟踪问题建模为二分类任务，通过区分目标与背景实现定位。此类方法的核心是构建外观模型（如相关滤波器或卷积层），通过最小化判别损失函数训练模型，以区分包含目标的正样本与背景区域的负样本。判别式跟踪的关键特性在于推理阶段的在线学习与模板更新，使其能实时适应外观变化、遮挡及环境变化。早期判别式跟踪器多依赖手工特征（如方向梯度直方图HOG）和简单分类器（如支持向量机或岭回归），后续方法逐渐转向深度特征与优化驱动的预测模型。以下介绍最具代表性的判别式跟踪器，其架构通过统一框架呈现以便比较，表2详细列出了这些方法的时间演进与关键参数。

基于相关滤波器（CF）的跟踪器：此类方法通过在线训练判别式分类器实现目标与背景的区分，利用跟踪过程中采集的样本动态适应目标外观变化。相关滤波器通过求解岭回归问题，学习一个线性模板以区分目标区域与周围背景。其核心创新在于利用快速傅里叶变换（FFT）在频域进行计算，利用循环相关性质实现高效滤波器训练与更新（通常每帧一次）。推理时，相关滤波器作用于首帧目标位置周围的小搜索窗口，通过响应图的最大值确定目标新位置。每帧结束后，CF跟踪器在线更新滤波器权重，使模型动态适应目标的光照与几何变化。部分CF方法还通过选择最高相关输出的尺度，同时估计目标位置与尺度。相关滤波类跟踪器的突破在于，在保持计算效率（依赖频域操作）的同时，实现了与当时最先进方法相当的精度。

最小输出平方误差（MOSSE）跟踪器[1]：是最早的CF类跟踪器之一，提出了一种简单且实时的跟踪方法，对尺度变化、光照、姿态及非刚性形变具有鲁棒性。相较于早期依赖复杂外观模型与优化策略、速度较慢的相关滤波方法，MOSSE引入了更高效的自适应跟踪框架，仅需单帧训练相关滤波器，显著降低了数据需求（如ASEF[60]需大量训练样本）。MOSSE可视为ASEF的正则化变体，通过最小化输出平方误差并引入在线自适应机制，提升了稳定性与鲁棒性。

核化相关滤波器（KCF）[2]：延续了MOSSE的实时自适应框架，通过引入核技巧提升判别能力与特征表示。KCF利用图像块的循环结构，结合离散傅里叶变换（DFT）降低存储与计算复杂度，即使采用更丰富的特征（如HOG）也能保持实时性能。

MDNet[5]：针对手工特征在鲁棒目标表示中的局限性，提出了基于CNN的判别式跟踪器。不同于直接使用预训练分类网络（因分类与跟踪任务域存在差异），MDNet采用多域学习框架，分离领域无关与领域特定信息。离线训练时，共享卷积层跨多视频序列学习，而独立分支训练二分类任务。推理时，初始化并微调新的领域特定分支，实现目标与背景的区分。

空间正则化判别相关滤波器（SRDCF）[3]：针对标准DCF因循环卷积假设导致的边界伪影问题，引入空间正则化项，根据滤波器系数的空间位置施加惩罚。这使模型能从更大图像区域（含丰富负样本）学习，同时聚焦目标区域。为保持计算效率，利用频域正则化的稀疏性，结合高斯-赛德尔迭代法进行在线优化。

DeepDCF[6]：研究如何将预训练卷积层的激活值融入相关滤波跟踪器，替代传统手工特征。在标准DCF与SRDCF框架中验证深度特征，发现浅层卷积层（如第一层）比深层特征更适用于跟踪。这一发现表明，空间细节与语义信息的结合对视觉跟踪至关重要，且深度特征（如HOG、颜色名）能带来持续改进。

CFNet[7]：不同于传统孪生跟踪器（如SiamFC通过静态模板匹配），CFNet在浅层孪生网络中嵌入在线相关滤波层作为可微分模块，实现跟踪模型与特征表示的端到端学习。通过滑动平均更新模板，提升对外观变化的适应能力。其核心创新是将相关滤波视为闭式优化块，通过反向传播嵌入网络，在保持高速与效率的同时，学习适用于相关跟踪的特征。

背景感知相关滤波器（BACF）[4]：针对传统CF跟踪器仅学习循环移位目标块、忽视真实背景信息导致过拟合与复杂场景下判别力不足的问题，BACF提出密集采样真实背景块作为负样本，学习更优的前景-背景区分滤波器。结合交替方向乘子法（ADMM）优化多通道滤波器，在保持实时性能的同时无需深度特征。
在这里插入图片描述

图2展示了早期判别式跟踪器的架构概览，涵盖核心组件与关键趋势，包括特征提取、分类、更新机制及创新点。

ATOM[8]（如图3所示）：针对早期判别式跟踪器（如[2-4]）仅依赖多尺度搜索而未建模目标特定外观或长宽比变化的问题，提出双流架构分离目标分类与状态估计。分类分支采用轻量级卷积网络，通过共轭梯度策略在线优化；状态估计模块离线训练，预测候选框与目标框的交并比（IoU）得分。通过特征调制整合目标特定信息，ATOM在姿态与视角变化下实现了可靠的边界框估计。

DiMP[9]（如图3所示）：针对判别式跟踪器背景信息利用不足导致目标-干扰物区分能力弱的问题，将目标模型学习建模为优化问题。目标模型表示为通过最陡下降法迭代的卷积层，结合离线训练的元学习优化器，利用当前帧的正样本与密集采样的负样本（含背景）在线更新模型。这使DiMP能快速构建鲁棒的目标特定分类器，适应外观变化与未见目标，同时保持强目标-背景分离能力。此外，DiMP集成并行IoU预测分支以提升边界框精度。

PrDiMP[10]（如图3所示）：在DiMP[9]基础上，将目标中心定位与边界框回归建模为概率回归任务。不同于置信度评分方法（预测标量值），PrDiMP通过网络架构直接建模目标状态的条件概率密度，无需预设分布。通过最小化预测与标签分布的KL散度，模型能处理标注噪声与状态不确定性。概率公式提升了遮挡、模糊及相似干扰物场景下的鲁棒性。
在这里插入图片描述

KeepTrack[11]：针对干扰物鲁棒性问题，提出显式目标候选关联机制，而非仅依赖更强的外观模型。扩展DiMP[9]框架，集成DiMP的目标分类器与PrDiMP[10]的概率边界框回归器。如图3所示，通过学习目标候选关联网络，结合位置、评分与外观特征关联跨帧候选。结合自监督训练策略与部分标签，构建图结构候选嵌入网络捕捉邻近候选关系。在线更新时，通过记忆样本置信度机制评估训练样本可靠性，减少不可靠样本影响，提升干扰物场景下的适应性。

在这里插入图片描述

3.2 基于孪生网络的跟踪

基于孪生网络的跟踪器是通用目标跟踪的重要范式，其核心是将跟踪建模为目标模板与搜索区域的相似性匹配问题。典型孪生网络包含两个共享权重的分支：模板分支处理首帧目标块，搜索分支处理当前帧区域。两分支通过共享骨干网络将输入嵌入公共特征空间，通过计算相似性（如互相关）定位目标。此类方法通过大规模数据集离线训练，学习通用的相似性匹配函数，无需在线自适应即可实现快速推理。孪生网络跟踪器通过创新回归头、更新机制、更深骨干网络及注意力模块，持续提升鲁棒性与精度。其平衡高速推理与竞争力的特点，使其成为现代跟踪系统的重要组成部分。以下介绍代表性孪生跟踪器，其架构通过统一框架呈现以便比较，表3详细列出了这些方法的时间演进与关键参数。
在这里插入图片描述

SiamFC[12]：提出全卷积孪生网络，通过大规模视频数据集端到端训练，学习通用的相似性函数。网络包含两个相同分支，分别提取模板与搜索区域的特征，通过互相关层生成密集响应图以定位目标。该架构通过单次前向传播实现滑动窗口匹配，结合多尺度搜索金字塔处理尺度变化，并引入余弦窗抑制干扰物、平滑定位。尽管缺乏在线自适应，SiamFC仍实现了实时高性能，奠定了后续孪生跟踪器的基础。

DSiam[64]：针对SiamFC无法动态适应外观变化与背景干扰的问题，引入动态变换学习模块。该模块通过频域学习的卷积映射，实时调整模板与搜索特征，无需替换模板即可实现自适应。结合多层级特征融合（浅层与深层），提升定位鲁棒性。不同于传统孪生跟踪器基于图像对的训练，DSiam通过完整视频序列联合训练，利用时空动态信息，在复杂场景下比静态孪生模型（如SiamFC）表现更优。

SA-Siam[15]：提出双流孪生网络，结合外观与语义特征提升SiamFC的泛化能力。网络包含独立训练的外观分支与语义分支：外观分支保留SiamFC结构，聚焦相似性学习；语义分支提取预训练分类网络的高层语义特征。两分支仅在推理时融合，生成综合相似度评分。语义分支通过通道注意力机制，结合目标与周围上下文信息，实现最小但有效的目标自适应。该模型在保持实时性能的同时，提升了外观变化场景下的鲁棒性。
在这里插入图片描述
图4对比了上述分类型孪生跟踪器（SiamFC[12]、DSiam[64]、SA-Siam[15]）的架构，突出多层级特征融合、注意力模块及在线精修机制的创新。

SiamRPN[13]：在孪生网络中引入区域建议网络（RPN），提升跟踪精度与鲁棒性。通过模板与搜索分支的RPN模块，实现前景-背景分类与边界框回归，替代SiamFC的多尺度搜索策略。跟踪被建模为局部单次检测任务，模板分支作为元学习者生成搜索分支的检测核。端到端离线训练结合建议框精修，构建了紧凑高效的跟踪流水线。

DaSiamRPN[20]：针对通用跟踪中语义与非语义背景样本失衡的问题（语义干扰物样本不足），提出干扰物感知的离线采样策略。通过引入同/跨类别的语义负样本对，训练更具判别性的表征。推理时，结合硬负样本挖掘与改进的相似度函数，动态抑制干扰物。采用局部到全局的搜索策略，通过逐渐扩大搜索区域实现长时跟踪与目标重新检测。

SiamRPN++[17]：解决早期孪生跟踪器因严格平移不变性无法使用深层骨干（如ResNet[62]）的问题，提出空间感知采样策略打破平移不变性，实现端到端深层网络训练。结合多层级（ResNet不同层）特征聚合，提升运动模糊、形变等场景下的鲁棒性。聚合特征通过三个孪生RPN模块，并赋予分类与回归不同的融合权重。针对SiamRPN中跨通道互相关的参数失衡问题，提出深度互相关模块，减少参数数量、稳定训练，并生成通道分离的相似度图以提升精度。

SiamFC++[16]：在SiamFC基础上提出实用准则，优化通用目标跟踪的精确状态估计。模型分离分类与回归分支，解耦粗定位与精修边界框，避免暴力多尺度搜索。采用无锚点的逐像素估计策略，消除先验尺度与长宽比假设的歧义。引入质量评估分支，预测边界框可靠性得分，解决分类置信度高但定位差的问题。该分支生成并行质量图，调制最终跟踪决策。SiamFC++在保持架构简单与通用性的同时，实现了实时高精度跟踪。
在这里插入图片描述
图5对比了含定位头的孪生跟踪器架构，突出多层级特征融合、互相关类型、回归头及在线更新机制的创新，展示孪生网络为适应准确定位、在线自适应及干扰物处理而增加的功能与复杂度。

SiamBAN[14]：针对视觉跟踪中精确状态估计的挑战，提出无锚点框架，消除预定义候选框与多尺度搜索。模型在相关特征图的每个空间位置预测前景-背景评分与4D偏移向量（描述边界框）。该无锚点设计减少了超参数依赖，提升了模型对尺度与长宽比变化的适应性。结合多层级预测与深度互相关，实现端到端离线训练的高效与精确。

Siam R-CNN[19]：提出两阶段孪生网络重新检测框架，通过全图搜索与动态规划算法（TDPA）实现长时跟踪。不同于依赖局部搜索窗口的孪生跟踪器，Siam R-CNN在全帧进行重新检测。第二阶段通过ROI对齐特征与首帧模板的比较，利用三阶段级联重新检测头确定目标相似度。TDPA联合当前帧与前一帧的重新检测结果，形成时空轨迹，实现鲁棒的目标关联与长期干扰物抑制。此外，引入硬负样本挖掘策略，从其他视频中提取相似目标提升重新检测的判别力。该离线训练策略对长时跟踪中的显著外观变化与遮挡具有强鲁棒性。

SiamAttn[18]：针对孪生跟踪器固定模板与独立特征提取的局限，引入变形孪生注意力（DSA）模块。DSA集成变形自注意力与跨注意力，增强特征表示：自注意力通过通道与空间操作建模帧内上下文，跨注意力聚合模板与搜索区域的交互依赖，隐式更新模板以适应外观变化、遮挡与背景干扰。此外，引入区域精修模块，对注意力增强的特征进行深度互相关，融合多层级特征以精修边界框与分割掩模。

Ocean[65]：提出目标感知的无锚点跟踪框架，解决锚点型孪生跟踪器因预定义锚框与目标重叠差导致的性能瓶颈。通过直接回归目标位置与尺度（基于真实边界框内所有像素的密集预测），提升弱预测场景下的定位精度。引入目标感知特征对齐模块，将特征采样与预测边界框对齐，生成全局与局部特征（全局特征提升分类可靠性，局部特征捕捉细节），融合后获得鲁棒目标表示。推理时支持在线模型更新，平衡锚点自由回归与目标感知分类的优势，实现复杂动态环境下的高鲁棒性与实时性能。

ECIM[66]：针对孪生跟踪器互相关模块忽视通道重要性与局部空间信息的问题，提出高效相关信息融合器，将互相关分解为深度互相关（DCC）与点互相关（PCC），分别捕捉通道语义信息与细粒度局部上下文。通过通道与空间注意力机制融合两类相关图，提升分类与无锚点状态估计的最终表示质量。该方法在复杂场景下提升了鲁棒性与判别力，同时保持低计算开销。

SiamDMU[21]：针对孪生跟踪器模板固定导致的外观变化适应能力不足问题，提出双掩模模板更新策略。基于SiamRPN++框架，包含孪生匹配模块与模板更新模块（TUM）。TUM由掩模增强块（MEB）与模板更新块（TUB）组成：MEB利用语义分割与长时运动信息，按固定间隔精修基础模板与跟踪输出；TUB通过增强表示在图像层级更新模板，保留特征层级更新易丢失的高分辨率空间细节。该策略在严重外观变化下实现鲁棒跟踪，同时保持轻量化与易训练特性。最终跟踪结果通过区域建议网络头（配对互相关）生成。

图6对比了更先进的孪生跟踪器架构，突出互相关操作、记忆集成与在线更新机制的创新，展示孪生网络为提升在线自适应与模型判别力而增加的功能与复杂度。

在这里插入图片描述

3.3. 基于Transformer的跟踪方法

在讨论完基于判别式和孪生网络的跟踪器后，我们现在探讨近年来快速发展的基于Transformer的跟踪技术。自Transformer在自然语言处理（如机器翻译）中引入以来，其在视觉任务（如语义分割、目标检测、图像分类和点云分析）中取得了显著成果[58]。孪生网络跟踪器主要关注空间信息进行跟踪，而在线方法通过历史预测进行模型更新，但两者均缺乏显式机制来联合建模时空关系[22]。Transformer通过注意力机制建模帧内和帧间依赖关系的能力，使其特别适合视觉跟踪。与依赖局部感受野的CNN不同，Transformer通过全局注意力捕捉长程上下文信息[71]。基于Transformer的跟踪方法利用编码器-解码器架构、自注意力和交叉注意力等关键组件，增强特征表示和目标定位能力。更多细节可参考[58, 72, 73]。我们将基于Transformer的跟踪器分为两大类：完全基于Transformer的跟踪器（基于Transformer原理构建全新架构，