哈尔滨工业大学提出ADSUNet—红外暗弱小目标邻帧检测新框架

ADSUNet: Accumulation-Difference-Based Siamese U-Net for inter-frame Infrared Dim and Small Target Detection

在这里插入图片描述

作者单位:哈尔滨工业大学空间光学工程研究中心
引用: Liuwei Zhang, Yuyang Xi, Zhipeng Wang, Wang Zhang, Fanjiao Tan, Qingyu Hou, ADSUNet: Accumulation-Difference-Based Siamese U-Net for inter-frame Infrared Dim and Small Target Detection.
论文下载链接 中科院1区TOP,IF=7.5,Pattern Recognition (2025), doi: https://doi.org/10.1016/j.patcog.2025.111942
代码已经开源:https://github.com/zhanglw882/ADSUNet

红外暗弱小目标检测(Infrared dim and small target, IRDST)旨在对图像中的弱小目标进行精确定位,目前已经得到了广泛的研究。基于空间信息的单帧检测方法可以检测到高信杂比的IRDST,但是很难检测低信杂比的IRDST。为了解决这一问题,一些传统的方法倾向于结合时空信息来检测IRDST。然而,这些方法需要调整许多超参数以适应不同的复杂背景。基于学习的多帧检测方法正在兴起,能克服这个缺陷,但是也存在信息冗余和低效的问题。本文提出了一种基于累积差分孪生U型网络(Accumulation-Difference-Based Siamese U-Net,ADSUNet)的红外暗弱小目标检测方法。该方法通过将传统的帧间灰度差异特征和空间显著积累特征融入到轻量的邻帧端到端网络框架中,提高了低信杂比下IRDST的综合性能,并且保持了良好的实时性与轻量化。首先,利用Siamese网络提取帧间图像中IRDST的多尺度空间显著特征;随后,利用所提出的累积-差异注意力模块自适应融合帧间特征图,确保充分有效地利用IRDST的高维帧间时空信息。最后,通过解码网络还原特征图的尺度,得到IRDST的概率似然图。与其他方法相比,ADSUNet在目标可探测性、抑制虚警性、实时性等方面达到了最先进的水平,在两个数据集(SCR < 3)上AUC值分别为0.993和0.998,FPS达到30.97,参数量仅为1.498 M。
1、论文动机
为了实现红外弱小目标的准确检测,近年来人们提出了很多方法,按照方法类型可以分为基于模型驱动的传统方法与基于数据驱动的智能方法这两大类。其中基于模型驱动的传统方法主要有基于滤波的方法、基于稀疏和低秩的方法和基于人类视觉系统(HVS)的方法。传统方法主要从红外小目标与背景之间的特征差异出发,通过设计手工制作的特征模型与利用先验知识,对红外弱小目标进行增强处理,对背景、杂波、噪声进行有效抑制,从而实现红外小目标的检测。经过验证,这些方法在简单背景和高强度红外小目标的场景中取得了不错的效果,但是由于人工特征提取的固有局限性,这些方法对于复杂多变的场景下红外弱小目标的检测能力差,尤其是在面向低信杂比目标检测时,红外小目标的检测性能显著下降。
基于数据驱动的方法主要指采用深度学习技术进行红外弱小目标检测,这类方法利用卷积网络强大的非线性表征能力从大量标注数据中有效地提取深层特征,智能自主地学习红外弱小目标特征以及其与背景的差异,从而实现红外小目标与背景的精确分离,能够高精度的完成红外弱小目标的检测。例如:Hou等人提出了鲁棒红外小目标检测网络(RISTDnet),巧妙地设计了固定权重与可变权重卷积网络级联组合的方式学习红外弱小目标的深层特征,通过一系列实验证明了网络对复杂背景下不同尺寸红外小目标的检测能力。Li等人提出的密集嵌套注意网络(DNANet)采用了稠密卷积架构增强了深度特征层间的信息交互和特征融合,避免了深层语义中红外小目标特征的丢失,显著提高了红外小目标的检测性能。还有很多基于深度学习的方法提出,都为红外小目标检测技术的发展贡献了新的思路和解决方案。
但是在低信杂比条件下进行红外弱小目标检测时,由于目标信号微弱且空间不显著,仅依赖于采用空域的检测方法难以有效的检测红外弱小目标。在这种情况下,一批研究人员开始新的探索,即采用有限数量的连续帧数据来进行低信杂比红外弱小目标的检测。利用时间序列数据有助于捕捉红外弱小目标的时空信息,以提高低信杂比红外弱小目标的检测能力。对相邻两帧红外小目标区域时空特征进行分析,如图1所示,由于探测器的高帧频成像,红外小目标在像面上的位移有限,因此相邻两帧通过能量的累加可提高弱小目标的显著性,同时红外小目标存在微动效应,通过帧间差分可获得红外小目标的帧间变化与运动特征。如果可以把能量累加与帧间差分特征进行有效的融合,将大幅提高低信杂比目标的检测能力。进一步的,可采用深度学习的方式自主的进行邻帧图像空域显著性的提取与能量累加-帧间差分的智能融合,端到端的实现邻近两帧图像到红外小目标概率的映射。
图1 方法动机
基于上述分析,研究提出了一种创新的红外弱小目标邻帧检测网络(Inter-frame Infrared Small Target Detection),该网络是基于累积-差分U型孪生网络架构。总结来说,本文主要的贡献总结如下。
1)针对低信杂比红外小目标检测问题,我们提出了一个基于累积-差分模块U型孪生网络的红外弱小目标邻帧检测算法框架,基于U型孪生网络、累积-差分注意力模块与解码模块融合邻帧的时空信息,端到端的实现了基于邻帧图像的红外弱小目标的检测。
2)采用了共享权重的孪生网络提取邻近两帧图像的多尺度空域显著性特征,在解码网络中通过上采样将深层特征与浅层特征融合获得红外小目标概率图,实现了两帧图像与红外小目标概率图的映射。
3)在U型网络的跳连接中设计了累积-差分注意力模块融合邻帧信息,通过帧间空域显著性特征与帧间的差异特征的融合,并对融合后的特征引入了注意力机制,进一步提高了红外小目标帧间时空特征的提取能力;
4)实验结果证明提出方法的优越性。与现有方法相比,提出的方法对于低信杂比的红外弱小目标能够保持很小的性能下降,并在提出的新测试集上保持优异性能,体现出很强的泛化能力,并且具有更小的网络复杂度和更高的实时性。
2、方法部分
在本节中,将介绍ADSUNet的具体实现方法。首先,描述了ADSUNet的主体结构,紧接着展开介绍了网络的三大组成结构:Encoder、Accumulation-Difference Attention Module、Decoder,其中主要介绍提出的Accumulation-Difference Attention Module,最后,介绍网络的损失函数。
A. Framework Overview
通过端到端网络充分融合相邻两帧红外图像的信息,使网络自主的学习红外弱小目标的空间显著性特征及帧间时空特征,其中时空特征主要指红外小目标时空的能量累加以及红外小目标运动导致的帧间微变差异,以增强对低信杂比、微动红外弱小目标的检测能力。如图2所示,提出网络的总体结构受Unet和Siamese Network的启发,主要由三大部分构成:Encoder(Section III-B)、Accumulation-Difference Attention Module(Section III-C)、Decoder(Section III-D)。
Section III-B介绍了用于提取红外图像中红外弱小目标多尺度高维深度特征的孪生网络,该结构采用了两路分支分别对输入的相邻两帧图像进行处理,通过4次下采样获得不同尺度的特征,并在下采样中拓宽深度特征的维度,有效的获取输入图像的空域特征,两支路网络的权重参数共享,有利于收敛。Section III-C介绍提出的Accumulation-Difference Attention Module,该模块增加在Unet的跳连接中,在模块中首先对两路网络获得的特征图进行差分处理与累加处理得到差分特征与累加特征,其次将差分特征与累加特征进行级联拼接并利用注意力机制来自主调解差分特征与累加特征(Accumulation-Difference)的融合,获得红外弱小目标帧间时空特征。Section III-D和Section III-E分别介绍深层特征多级逐层解码网络(Decoder)和损失函数。
图2 整体网络结构
B. Encoder
由于红外小目标是尺度定义为1×1~9×9像素的目标,因此在下采样的过程中如果采用很深层的特征提取网络,红外小目标的语义信息在深层网络中会消失,并不能有助于红外小目标的检测。所以,编码器采用了经典的ResNet18作为主干网络来提取图像的多尺度特征,由于ResNet18中仅有3次降采样,经过降采样后,特征图尺寸从H×W降低到(H/8)×(W/8),在最深层仍能够保留红外小目标的语义信息。经过Decoder,特征维度从1扩张到128维,更多的通道数有助于红外弱小目标细节特征的表示。
编码器可以生成多尺度特征,其中高层特征保留了较强的语义信息,而低层特征保留了细节信息。根据输出特征图的尺寸,编码器分为4层。
为了邻帧红外图像特征的有效学习,编码器中两个网络分支之间的权重是共享的。通过共享权重,在一次训练中能够同时有效的利用两帧输入图像的信息进行权重参数的迭代优化,加快了网络的收敛。
C. Accumulation-Difference Attention Module
Accumulation-Difference Attention Module负责邻帧输入图像的融合处理操作,共采用了4个Accumulation-Difference Attention Module分别对4级尺度的特征图进行处理,Accumulation-Difference Attention Module主要包括了累积-差分融合处理机制与注意力机制两大部分,如图3所示。
图3 Accumulation-Difference Attention Module
D. Decoder
在Decoder进行多级的帧间Accumulation Feature and Difference Feature的融合,通过上采样将低分辨率的深层语义特征进行扩展,使其能够与上一层高分辨率特征图尺寸进行对齐实现融合,经过逐级的深层语义特征与浅层细节特征的融合,逐步递进来获取红外小目标精确的检测结果。
E. Loss Function
mIoU(Mean Intersection over Union)是一种常用的图像分割任务的评价指标,用于衡量预测结果与真实Label之间的相似度,基于mIoU指标衍生的mIoU损失对于样本类别分布不平衡的分割任务具有很强的鲁棒性。红外小目标检测实际上也是一种图像分割任务,同时红外小目标占图像的像素数低于0.15%,是典型的小样本检测任务。因此本文采用了mIoU损失。
3、实验部分
【具体的其它内容请参考发表的原文】
为阐述我们方法的性能,我们将提出的方法与state-of-the-art的红外弱小目标检测方法进行比对,包括了传统方法(MPCM,HBMLCM,WSLCM,RLCM,TLLCM,NIPPS,RIPT,WLDM,FKRW,MGRG,STLCF)及基于深度学习的方法(ISTDU_Net、RISTD_Net、DNA_Net、DTUM_Net)。所有的传统方法采用的参数使用它们的默认参数,基于深度学习的方法均在训练集上进行了重新的训练以获得最新权重,算法具体参数设置如表6所示。
在这里插入图片描述

  1. Quantitative Results:
    在红外小目标的检测性能方面,与其他算法进行ROC曲线性能的对比,绘制的ROC曲线如下图所示。
    在这里插入图片描述
    首先,从算法类型对检测性能影响的角度,基于深度学习的算法普遍优于传统算法,说明了数据驱动的深度学习方法在红外小目标检测上的优势。
    进一步的,通过观察不同方法在测试数据集上得到的ROC曲线可以看出,无论是高信杂比目标还是低信杂比目标,本文提出方法的ROC曲线均处于坐标轴的左上角区域,但是如RLCM、WSLCM、RIPT、RISTDU_Net等算法在低信杂比目标的测试序列(NUDT-MIRSDT Low SNR、IFIRDST Test_SeqB)上性能下降尤其明显,表明了目前的大部分算法只适用于高信杂比的红外小目标,对低信杂比目标的检测性能有限。
    进一步的,我们统计了在NUDT-MIRSDT与IFIRDST上TPR、FPR及AUC结果,如表7、表8所示:
    在这里插入图片描述
    在这里插入图片描述
    从上述结果不难得到结论:
    (1)在表7中,观察不同算法在High SNR测试集(NUDT-MIRSDT High SNR)与Low SNR测试集(NUDT-MIRSDT Low SNR)上的AUC值,不难发现大部分算法在Low SNR测试集上的AUC出现大幅下降,如MPCM、WSLCM、RIPT、STLCF、DNA_Net等算法的AUC值分别下降了0.371、0.471、0.245、0.225、0.201,说明了算法性能很大程度上受到目标信杂比的影响,大部分算法对于低信杂比的红外弱小目标检测性能有限。
    (2)继续在表7中,我们的算法与DTUM_Net的TPR、FPR、AUC明显优于相对比的其它算法,尤其是在Low SNR测试集(NUDT-MIRSDT Low SNR)上,AUC分别能达到0.993与0.995,相比于High SNR测试集(NUDT-MIRSDT High SNR)仅下降了0.006、0.004。表明了我们的算法与DTUM_Net具有对低信杂比红外弱小目标的检测能力。
    (3)在表8中可以看到提出网络模型的复杂度、算法实时性与其它基于深度学习方法的对比情况。提出算法的参数量仅为1.498M,FLOPS为24.89GFLOPS,是对比算法中运算次数最小的。FPS达到30.97,能满足实时性要求,是基于深度学习方法中效率最快的。
  2. Qualitative Results:
    如图7所示,我们展示了NUDT-MIRSDT测试集上10幅典型输入图像的算法处理结果,根据前面定量分析结果,展示的算法包括了NIPPS、STLCF、ISTDU Net、RISTD Net、DTUM Net与我们提出的算法,它们都是定量分析中性能较好的方法。
    图7
    其中Img1~Img4来自NUDT-MIRSDT High SNR,红外小目标信杂比高,所列的6个算法能够有效的检测到其中的红外小目标,仅NIPPS在Img4中出现了目标的漏检。
    但是,针对目标信杂比低的Img5-Img10( From NUDT-MIRSDT Low SNR),NIPPS、STLCF与RISTD_Net都没有检测到真实的目标,均产生了漏检,ISTDU_Net成功检测到Img6、Img8中的目标,而其它测试图像中的目标也没有成功被检测到。
    我们提出的算法与DTUM_Net对所有测试图像中的目标都能成功检测,但是在测试图像Img2、Img3、Img4、Img5中,DTUM_Net算法在红外小目标周边产生了与目标主体分离的检出区域,导致目标检出区域不完整与潜在虚警。而本文提出的方法能够完整的检出红外弱小目标,且没有产生虚警。

我们对提出算法进行了特征图的可视化工作,采用了GradCAM作为可视化模型。如图9所示,展示了ADSUNet的Decoder中4级特征图的可视化结果,对应了网络的最深层到最浅层。
图9
其中热力图的深色区域表明该区域对最终检测结果的贡献程度高,可以理解为网络的注意力集中在热力图的深色区域。可以看出,通过Decoder中不断的上采样操作,将深层的语义特征与浅层的细节纹理特征逐渐融合,网络的注意力最终都集中在红外小目标所在的区域,符合网络模型的预期,也表明了提出的ADSUNet是有效的。
4、CONCLUSION
在本文中,我们采用端到端的设计实现了邻帧图像的红外弱小目标检测,提出的ADSUNet面向低信杂比红外弱小目标的检测表现出了优异的性能。ADSUNet以孪生网络与U型网络为基础,利用我们设计的差分-累加注意力模块(Accumulation-Difference Attention Module)有效的融合了邻帧图像的时空信息,主要包括了空间显著性累加特征与时空差异信息,能够实现低虚警率下的红外弱小目标检测。在开源数据集上进行了性能对比测试,与其他算法相比,尤其针对低信杂比的红外弱小目标,ROC、AUC等指标均优于其它现有的算法,在新提出的测试集上仍能保持优异的水平,说明网络的强泛化能力。并且算法模型参数量仅为1.498M易于轻量化算力平台的部署,FPS能高达30.97,满足红外小目标检测的实时性要求。

The authors would like to thank the National University of Defense Technology (NUDT) in Changsha, China, for providing the NUDT-MIRSDT dataset.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/83307.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux开发追踪(IMX6ULL篇_第一部分)

前言 参数&#xff1a;cortex-A7 698Mhz flash 8GB RAM 512M DDR3 2个100M网口 单核 初期&#xff1a; 一、安装完虚拟机之后&#xff0c;第一步先设置文件之间可以相互拷贝复制&#xff0c;以及通过CRT连接到虚拟机等 折磨死人了啊啊啊啊啊啊 1、关于SSH怎么安装…

【萌笔趣棋】网页五子棋项目测试报告

目录 一.项目介绍 &#xff08;一&#xff09;项目简介 &#xff08;二&#xff09;功能介绍 &#xff08;三&#xff09;页面展示 1.注册页面 2.登录页面 3.游戏大厅页面 4.游戏房间页面&#xff08;对战&#xff09; 二.功能测试 &#xff08;一&#xff09;出现的…

知识图谱增强的大型语言模型编辑

https://arxiv.org/pdf/2402.13593 摘要 大型语言模型&#xff08;LLM&#xff09;是推进自然语言处理&#xff08;NLP&#xff09;任务的关键&#xff0c;但其效率受到不准确和过时知识的阻碍。模型编辑是解决这些挑战的一个有前途的解决方案。然而&#xff0c;现有的编辑方法…

数据库,Spring Boot,数据源

您是对的&#xff0c;我之前的回答解释了Spring Boot在操作MySQL时不一定需要显式配置指定的数据源类型&#xff0c;因为它有自动配置机制&#xff0c;但没有直接点明在自动配置情况下“数据源是什么”。 在Spring Boot自动配置机制下&#xff0c;这个“数据源”指的是一个连接…

数据结构测试模拟题(3)

1、两个有序链表序列的合并 #include<bits/stdc.h> using namespace std;struct node{int num;node* next; };// 创建链表 node* CreatList(){int x;node *head new node(); // 创建头节点head->next NULL;node *tail head; // 尾指针初始指向头节点while…

LabVIEW Val (Sgnl) 属性

在 LabVIEW 事件驱动架构中&#xff0c;Val (Sgnl) 属性&#xff08;Value (Signaling)&#xff09;是实现编程触发与用户交互行为一致性的关键技术。与普通 Value 属性不同&#xff0c;Val (Sgnl) 在修改控件值的同时强制生成值改变事件&#xff0c;确保程序逻辑与 UI 交互保持…

04.MySQL数据类型详解

MySQL数据类型详解 文章目录 MySQL数据类型数据类型分类数值类型 tinyint类型bit类型float类型decimal类型 字符串类型 char类型varchar类型char和varchar比较 时间日期类型enum和set类型数据类型选择的进阶技巧常见误区与解决方案性能优化与最佳实践 MySQL数据类型 数据类型…

Spring AI 之对话记忆(Chat Memory)

大型语言模型&#xff08;LLMs&#xff09;是无状态的&#xff0c;这意味着它们不会保留关于之前交互的信息。当想在多次交互中保持上下文或状态时&#xff0c;这可能会成为一个限制。为了解决这一问题&#xff0c;Spring AI 提供了对话记忆功能&#xff0c;允许你在与大型语言…

Hölder Statistical Pseudo Divergence Proper Hölder Divergence

目录 Hlder Statistical Pseudo DivergenceProper Hlder Divergence Hlder Statistical Pseudo Divergence Hlder Statistical Pseudo Divergence是一种度量两个概率分布 p p p 和 q q q差异的方法&#xff0c;它基于Hlder不等式。定义如下&#xff1a; D α H ( p : q ) 1 …

时序数据库IoTDB基于云原生的创新与实践

概述 Apache IoTDB 是一款独立自研的物联网时序数据库&#xff0c;作为 Apache 基金会的顶级项目&#xff0c;它融合了产学研的优势&#xff0c;拥有深厚的科研基底。IoTDB 采用了端边云协同的架构&#xff0c;专为物联网设计&#xff0c;致力于提供极致的性能。 数据模型 I…

git 如何解决分支合并冲突(VS code可视化解决+gitLab网页解决)

1、定义&#xff1a;两个分支修改了同一文件的同一行代码&#xff0c;无法自动决定如何合并代码&#xff0c;需要人工干预的情况。&#xff08;假设A提交了文件a,此时B在未拉取代码的情况下&#xff0c;直接提交是会报错的&#xff0c;此时需要拉取之后再提交才会成功&#xff…

系统架构设计师(一):计算机系统基础知识

系统架构设计师&#xff08;一&#xff09;&#xff1a;计算机系统基础知识 引言计算机系统概述计算机硬件处理器处理器指令集常见处理器 存储器总线总线性能指标总线分类按照总线在计算机中所处的位置划分按照连接方式分类按照功能分类 接口接口分类 计算机软件文件系统文件类…

聊一聊接口测试中缓存处理策略

目录 一、强制绕过缓存 添加时间戳参数 修改请求头 二、主动清除缓存 清除本地缓存 清除服务端缓存&#xff08;需权限&#xff09; 清除CDN缓存 三、测试缓存逻辑 首次请求获取数据 记录响应头中的缓存标识​​​​​ 验证缓存生效 测试缓存过期​​​​​​​ 四…

机器学习算法-逻辑回归

今天我们用 「预测考试是否及格」 的例子来讲解逻辑回归&#xff0c;从原理到实现一步步拆解&#xff0c;保证零基础也能懂&#xff01; &#x1f3af; 例子背景 假设你是班主任&#xff0c;要根据学生的「学习时间」预测「是否及格」&#xff0c;手上有以下数据&#xff1a;…

【论文解读】CVPR2023 PoseFormerV2:3D人体姿态估计(附论文地址)

论文链接&#xff1a;https://arxiv.org/pdf/2303.17472 源码链接&#xff1a;https://github.com/QitaoZhao/PoseFormerV2 Abstract 本文提出了 PoseFormerV2&#xff0c;通过探索频率域来提高 3D 人体姿态估计的效率和鲁棒性。PoseFormerV2 利用离散余弦变换&#xff08;DC…

DRW - 加密市场预测

1.数据集描述 在本次比赛中&#xff0c;数据集包含加密市场的分钟级历史数据。您的挑战是预测未来的加密货币市场价格走势。这是一项kaggle社区预测竞赛&#xff0c;您可以以 CSV 文件的形式或通过 Kaggle Notebooks 提交您的预测。有关使用 Kaggle Notebooks 的更多详细信息&a…

嵌入式Linux系统中的启动分区架构

在嵌入式Linux系统架构中,Linux内核、设备树(Device Tree)与引导配置文件构成了系统启动的基础核心。如何安全、高效地管理这些关键文件,直接影响到系统的稳定性与可维护性。近年来,越来越多的嵌入式Linux开发者选择将启动相关文件从传统的“混合存放”方式,转向采用独立…

用户资产化视角下开源AI智能名片链动2+1模式S2B2C商城小程序的应用研究

摘要&#xff1a;在数字化时代&#xff0c;平台流量用户尚未完全转化为企业的数字资产&#xff0c;唯有将其沉淀至私域流量池并实现可控、随时触达&#xff0c;方能成为企业重要的数字资产。本文从用户资产化视角出发&#xff0c;探讨开源AI智能名片链动21模式S2B2C商城小程序在…

Spring是如何实现属性占位符解析

Spring属性占位符解析 核心实现思路1️⃣ 定义占位符处理器类2️⃣ 处理 BeanDefinition 中的属性3️⃣ 替换具体的占位符4️⃣ 加载配置文件5️⃣ Getter / Setter 方法 源码见&#xff1a;mini-spring 在使用 Spring 框架开发过程中&#xff0c;为了实现配置的灵活性&#xf…

【大模型面试每日一题】Day 31:LoRA微调方法中低秩矩阵的秩r如何选取?

【大模型面试每日一题】Day 31&#xff1a;LoRA微调方法中低秩矩阵的秩r如何选取&#xff1f; &#x1f4cc; 题目重现 &#x1f31f;&#x1f31f; 面试官:LoRA微调方法中低秩矩阵的秩r如何选取&#xff1f;&#xff1a; #mermaid-svg-g5hxSxV8epzWyP98 {font-family:"…