Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID 2025最新无人机跟踪

Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID 2025最新无人机跟踪

自己研一期间的小论文大致上的结构和内容基本上已经完成,到了最后在测试集上测试数据的阶段,在跑测试集的时间上就去看一些25年和多目标跟踪的领域相关的一些内容。掌握一些前言的内容,也可以为之后的实验和后续的工作提高一些baseline去使用。

热红外视频中多无人机的检测和跟踪是一个具有挑战性的问题,因为目标的对比度低、环境噪声大、目标尺寸小。

自己所做的论文存在的比较困难的一个地方就是对极小目标的跟踪上存在困难,检测器能检测到,但是提取特征上存在困难。

摘要

文章本身的创新性上感觉参考的价值不大,主要是集中在了从之前使用比较多的YOLOX上转换到了使用最新的YOLO12的模型来进行替换,整个代码中yolo12的使用是更有参考价值的。

提出了一个基于YOLOv 12和BoT-SORT的跟踪框架,而不是依赖于带有DeepSORT管道的YOLOv5

与传统的RGB图像相比,热红外视频具有许多优势,例如在低光照和恶劣天气条件下增强了能见度,使其成为安全和监控应用的理想选择。

在这里插入图片描述

这里论文中给出的图片信息应该就是热红外视频的跟踪方法。

下面的图像就说明了:从训练集中的边界框注释中裁剪的图像块,说明了UAV的不同大小,从几个像素到个位数像素。我们通过利用最新的YOLOv 12 探测器和BoT-SORT 跟踪算法构建了一个完整的无人机跟踪工作流程,其性能优于成熟的YOLOv 5 与DeepSORT的组合。

在这里插入图片描述

将文章主要的创新点总结如下:

  1. 我们建立了一个基于YOLOv 12和BoT-SORT的多无人机跟踪工作流程,为基于热红外视频的多无人机跟踪任务奠定了坚实的基础。

  2. 我们对各种试验调整提供了深入的分析,例如输入图像大小和跟踪器缓冲区调整的影响,并从我们强大的基线开始为未来的改进提供了基本考虑。

感觉这个第二个创新点直观的看上去我自己水平可能是理解不了,自我感觉是稍微有点水没提出以些实际有效的模块或者算法提供出来。

我们的方法通过利用最新的探测器和跟踪器,设置一个新的基准热红外视频为基础的无人机跟踪和指导未来的研究在多无人机跟踪任务的领域。

Methodology方法论

介绍了主要的检测模型YOLOv 12和跟踪算法BoT-SORT,然后详细介绍了我们的训练和推理策略。

BOT-SORT对于自己来说是十分熟悉的论文其代码的形式也是很了解用的比较多。对于最新的YOLO12确实是没了解过。

  1. 首先说明了它这个无人机跟踪算法的主要的三个任务:

挑战由三个轨道组成,每个轨道对应于不同的场景。航迹1和航迹2是SOT任务,不同之处在于是否给出了UAV的初始位置。航迹3是一个MOT任务,提供了无人机的初始位置。(Single Object Tracking (SOT))

在这里插入图片描述

报告了宽度、高度和面积分布,沿着它们的平均值和标准差,为模型超参数调整提供了重要的见解。请注意,与正式发布版本相比,数量可能略有不同,因为我们已删除了冗余注释和缺陷案例,如下图1所示。

在这里插入图片描述

后面介绍的主要是实验训练和验证以及设置的一些参数条件。

在这里插入图片描述

YOLOv12 with BoT-SORT-ReID for MOT

YOLOv 12因其卓越的上级性能而被选为所有轨道。

YOLOv 12的核心是采用剩余有效层聚合网络(R-ELAN),该网络解决了与注意力机制相关的优化挑战,特别是在大规模模型中。基于ELAN ,R-ELAN引入了具有自适应缩放的块级残差设计以及精细的特征聚合策略,以最小的开销共同促进有效的特征重用和稳定的梯度传播。

这里自己没看过YOLO12的论文不做详细的解释。

YOLOv12通过将FlashAttention与空间感知模块相结合,集成了以注意力为中心的架构,从而在保持低延迟的同时增强了上下文建模。引入7×7大核可分离卷积拓宽了感受野并加强了目标定位,特别是对于中小型目标。该架构针对现代GPU内存层次结构进行了优化,在不影响检测性能的情况下提高了计算效率并缩短了推理时间。这些创新使YOLOv12能够平衡速度和准确性,使其非常适合实时应用,大规模检测任务和跟踪管道。

对BOT-SORT的简单介绍

BoT-SORT 将卡尔曼滤波器与相机运动补偿(CMC)相结合,以在动态条件下稳定跟踪。CMC通过仿射变换采用全局运动补偿(GMC),使用金字塔Lucas-Kanade光流和离群值拒绝跟踪的图像关键点。

BoT-SORT-ReID通过集成来自四种不同ReID架构的外观线索来增强多对象跟踪。Bag of Tricks(Bagtricks)基线采用ResNet-50骨干,具有批量归一化,三重损失和交叉熵损失,用于鲁棒的特征提取。注意力广义平均池与加权三重损失(AGW)改进。

此外,在ByteTrack [45]之后,具有20帧间隙的线性tracklet插值减轻了遮挡或注释错误的错过检测

在这里插入图片描述

训练策略和推理的流程

为了减少YOLOv12检测器的训练时间,我们采用了两阶段训练策略。

  • 第一正常的训练和表中的是一样的
  • 随后,从这个检查点开始,我们在MOT数据集或更大的输入图像分辨率上微调这些模型。

推理工作流程如图:

在这里插入图片描述

带BoT-SORT-SBS-S50的YOLOv 12 n工作流程图。该工作流程遵循原始的BoT-SORT,但略有修订:合并丢失的轨迹以补偿无信息帧并提高对象连续性。具体地,对于磁道1和磁道2,丢失的目标信息被用于注释潜在的对象位置,而磁道3保留BoT-SORT原始输出。

没有使用线性轨迹插值,因为由于摄像机运动或快速移动的无人机,ID切换频繁发生,使得插值对于恢复丢失的检测无效。相反,对于SOT任务,我们采用的策略基于以下假设:每个帧最多包含一架UAV,并遵循以下优先级顺序:

(1)报告在线目标中具有最高置信度得分的UAV,(2)如果没有在线目标可用,则继续报告先前ID作为后续跟踪器缓冲帧中的丢失目标,(3)如果没有先前ID可用,则报告最后已知位置,直到检测到新的在线目标。

由于在线和丢失目标之间频繁的重叠和ID切换,这将导致效果不佳,因此该策略对于MOT任务是不可行的。因此,在本例中,我们保留了Track 3的原始输出。

测试的相关指标和MOT17中的指标计算方式上是保持一致的。
在这里插入图片描述

最后论文给出的这种应该是类似传统的消融实验的结果图,感觉和其他的一些论文相比较之下缺少和其他一些比较知名算法的对比实验。
在这里插入图片描述

提供的预训练模型如果是在MOT数据集上训练的其实对于做传统的MOT任务的要友好一些,但是代码中给出的替代YOLOX检测器的代码结构还是值得作为后续涨点的一种方式。
https://github.
com/wish44165/YOLOv12-BoT-SORT-ReID

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908762.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis中foreach集合用法详解

在 MyBatis 中&#xff0c;<foreach> 标签用于遍历集合&#xff08;Collection、List、Array、Map&#xff09;&#xff0c;常用于构建动态 SQL 语句&#xff08;如 IN 查询、批量插入等&#xff09;。以下是详细用法和示例&#xff1a; 核心属性 属性描述collection必填…

今日学习:ES8语法 | Spring整合ES | ES场景八股

文章目录 ES81 ES架构2 ES适用场景3 ES使用3.1对比mysql3.2 索引(Index)3.3 类型(Type)3.4 文档(Document)3.5 字段(Field)3.6 映射(Mapping) 4 ElasticSearch 基础功能4.1 分词器4.2 索引操作4.2.1 创建索引4.2.2 查看所有索引4.2.3 查看单个索引4.2.4 删除索引 4.3 文档操作4…

力扣刷题(第五十一天)

灵感来源 - 保持更新&#xff0c;努力学习 - python脚本学习 存在重复元素 II 解题思路 这个问题可以通过哈希表来高效解决。具体思路如下&#xff1a; 使用哈希表记录元素最后一次出现的位置&#xff1a;遍历数组&#xff0c;用一个哈希表存储每个元素的最后一次出现的…

基于 Vue3 + Element Plus 实现的智能题目生成页面设计思路

在本篇文章中&#xff0c;我将分享一个基于 Vue3 Element Plus 构建的「智能题目生成页面」的实现思路与设计理念。该页面作为在线学习平台的一部分&#xff0c;核心功能是&#xff1a;用户上传学习资料&#xff0c;AI 自动为其生成定制化题目。以下将从页面风格、功能模块、交…

全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比

目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec&#xff1f; IPsec VPN 5.1 IPsec传输模式&#xff08;Transport Mode&#xff09; 5.2 IPsec隧道模式&#xff08;Tunne…

《P1801 黑匣子》

题目描述 Black Box 是一种原始的数据库。它可以储存一个整数数组&#xff0c;还有一个特别的变量 i。最开始的时候 Black Box 是空的&#xff0e;而 i0。这个 Black Box 要处理一串命令。 命令只有两种&#xff1a; ADD(x)&#xff1a;把 x 元素放进 Black Box; GET&#x…

Docker、Wsl 打包迁移环境

电脑需要开启wsl2 可以使用wsl -v 查看当前的版本 wsl -v WSL 版本&#xff1a; 2.2.4.0 内核版本&#xff1a; 5.15.153.1-2 WSLg 版本&#xff1a; 1.0.61 MSRDC 版本&#xff1a; 1.2.5326 Direct3D 版本&#xff1a; 1.611.1-81528511 DXCore 版本&#xff1a; 10.0.2609…

【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制

使用 NginxLua 实现基于 IP 的访问频率限制 在高并发场景下&#xff0c;限制某个 IP 的访问频率是非常重要的&#xff0c;可以有效防止恶意攻击或错误配置导致的服务宕机。以下是一个详细的实现方案&#xff0c;使用 Nginx 和 Lua 脚本结合 Redis 来实现基于 IP 的访问频率限制…

华为OD机考-机房布局

import java.util.*;public class DemoTest5 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseSystem.out.println(solve(in.nextLine()));}}priv…

Server - 使用 Docker 配置 PyTorch 研发环境

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://spike.blog.csdn.net/article/details/148421901 免责声明&#xff1a;本文来源于个人知识与公开资料&#xff0c;仅用于学术交流&#xff0c;欢迎讨论&#xff0c;不支持转载。 建议使…

HarmonyOS5.0——CodeGenie:鸿蒙生态的AI编程革命​

​​CodeGenie&#xff1a;鸿蒙生态的AI编程革命​​ 华为推出的 ​​CodeGenie​​ 是集成于 DevEco Studio 的 AI 辅助编程工具&#xff0c;专为 HarmonyOS 应用开发设计。它通过深度优化 ArkTS 和 C 语言的代码生成能力&#xff0c;显著提升开发效率&#xff0c;降低鸿蒙生…

大模型模型部署和暴露接口

创建环境 激活案件 安装相关依赖 conda create -n fastApi python3.10 conda activate fastApi conda install -c conda-forge fastapi uvicorn transformers pytorch pip install safetensors sentencepiece protobuf 新建文件夹 mkdir App cd App touch main.py 复制代码…

Redis初入门

Nosql&#xff1a;Not-Only SQL&#xff08;泛指非关系型数据库&#xff09;&#xff0c;作为关系型数据库的补充 作用&#xff1a;应对基于海量用户和海量数据前提下的数据处理问题 redis&#xff1a;C语言开发的一个开源的高性能键值对数据库 特征&#xff1a; 1、数据之…

【原神 × 二叉树】角色天赋树、任务分支和圣遗物强化路径的算法秘密!

【原神 二叉树】角色天赋树、任务分支和圣遗物强化路径的算法秘密! 作者:星之辰 标签:#原神 #二叉树 #天赋树 #任务分支 #圣遗物强化 #算法科普 发布时间:2025年6月 总字数:6000+ 一、引子:提瓦特大陆的“树型奥秘” 你是否曾留意过《原神》角色面板的天赋树? 升级技能…

C++信息学竞赛中常用函数的一般用法

在C 信息学竞赛中&#xff0c;有许多常用函数能大幅提升编程效率。下面为你介绍一些常见函数及其一般用法&#xff1a; 一、比较函数 1、max()//求出a&#xff0c;b的较大值 int a10,b5,c;cmax(a,b);//得出的结果就是c等于10. 2、min()//求出a&#xff0c;b的较小值 int a1…

Linux【3】-----系统框架概述

系统架构 文件系统 linux一定需要挂载操作系统 一切皆文件 三个文件 引导文件 uboot.bin内核镜像 zImage文件系统镜像 system.img 设备树文件&#xff08;属于内核&#xff09; 应用程序编程 arm中通过软中断实现 各程序的构成 文件I/O 5种I/O模型 阻塞非阻塞信号多…

Tensorrt python api 10.11.0笔记

关于Tensorrt的python api文档阅读翻译加总结 文档源地址 Overview Getting started with TensorRT Installation(安装) 安装可参考:官方地址 Samples 关于样例的内容可参考:样例地址 Operator Documentation 有关更多信息&#xff08;包括示例&#xff09;&#xff0…

电镀机的阳极是什么材质?

知识星球&#xff08;星球名&#xff1a;芯片制造与封测技术社区&#xff0c;点击加入&#xff09;里的学员问&#xff1a;电镀的阳极有什么讲究&#xff1f;什么是可溶性阳极和非可溶性阳极&#xff1f; 什么是可溶性阳极与非可溶性阳极&#xff1f; 可溶性阳极 阳极本身就是…

前段三剑客之JavaScript-02

目录 简介 核心 函数 字符串对象 事件 运算符和控制语句 DOM 正则表达式 BOM JSON 简介 JavaScript由JavaScript语法&#xff0c;DOM和BOM组成 JS中提供了一些输入输出语句&#xff1a; alert(); //浏览器弹出警示框 console.log(); //控制台打印 prompt(); //浏览器…

Qiskit:量子计算模拟器

参考文献&#xff1a; IBM Qiskit 官网Qiskit DocumentationQiskit Benchpress packageQiskit Algorithms package量子计算&#xff1a;基本概念常见的几类矩阵&#xff08;正交矩阵、酉矩阵、正规矩阵等&#xff09;Qiskit 安装指南-博客园使用Python实现量子电路模拟&#x…