哈尔滨工业大学提出ADSUNet—红外暗弱小目标邻帧检测新框架

ADSUNet: Accumulation-Difference-Based Siamese U-Net for inter-frame Infrared Dim and Small Target Detection

在这里插入图片描述

作者单位：哈尔滨工业大学空间光学工程研究中心
引用: Liuwei Zhang, Yuyang Xi, Zhipeng Wang, Wang Zhang, Fanjiao Tan, Qingyu Hou, ADSUNet: Accumulation-Difference-Based Siamese U-Net for inter-frame Infrared Dim and Small Target Detection.
论文下载链接 中科院1区TOP，IF=7.5，Pattern Recognition (2025), doi: https://doi.org/10.1016/j.patcog.2025.111942
代码已经开源：https://github.com/zhanglw882/ADSUNet

红外暗弱小目标检测（Infrared dim and small target, IRDST）旨在对图像中的弱小目标进行精确定位，目前已经得到了广泛的研究。基于空间信息的单帧检测方法可以检测到高信杂比的IRDST，但是很难检测低信杂比的IRDST。为了解决这一问题，一些传统的方法倾向于结合时空信息来检测IRDST。然而，这些方法需要调整许多超参数以适应不同的复杂背景。基于学习的多帧检测方法正在兴起，能克服这个缺陷，但是也存在信息冗余和低效的问题。本文提出了一种基于累积差分孪生U型网络(Accumulation-Difference-Based Siamese U-Net，ADSUNet)的红外暗弱小目标检测方法。该方法通过将传统的帧间灰度差异特征和空间显著积累特征融入到轻量的邻帧端到端网络框架中，提高了低信杂比下IRDST的综合性能，并且保持了良好的实时性与轻量化。首先，利用Siamese网络提取帧间图像中IRDST的多尺度空间显著特征；随后，利用所提出的累积-差异注意力模块自适应融合帧间特征图，确保充分有效地利用IRDST的高维帧间时空信息。最后，通过解码网络还原特征图的尺度，得到IRDST的概率似然图。与其他方法相比，ADSUNet在目标可探测性、抑制虚警性、实时性等方面达到了最先进的水平，在两个数据集(SCR < 3)上AUC值分别为0.993和0.998，FPS达到30.97，参数量仅为1.498 M。
1、论文动机
为了实现红外弱小目标的准确检测，近年来人们提出了很多方法，按照方法类型可以分为基于模型驱动的传统方法与基于数据驱动的智能方法这两大类。其中基于模型驱动的传统方法主要有基于滤波的方法、基于稀疏和低秩的方法和基于人类视觉系统(HVS)的方法。传统方法主要从红外小目标与背景之间的特征差异出发，通过设计手工制作的特征模型与利用先验知识，对红外弱小目标进行增强处理，对背景、杂波、噪声进行有效抑制，从而实现红外小目标的检测。经过验证，这些方法在简单背景和高强度红外小目标的场景中取得了不错的效果，但是由于人工特征提取的固有局限性，这些方法对于复杂多变的场景下红外弱小目标的检测能力差，尤其是在面向低信杂比目标检测时，红外小目标的检测性能显著下降。
基于数据驱动的方法主要指采用深度学习技术进行红外弱小目标检测，这类方法利用卷积网络强大的非线性表征能力从大量标注数据中有效地提取深层特征，智能自主地学习红外弱小目标特征以及其与背景的差异，从而实现红外小目标与背景的精确分离，能够高精度的完成红外弱小目标的检测。例如：Hou等人提出了鲁棒红外小目标检测网络（RISTDnet），巧妙地设计了固定权重与可变权重卷积网络级联组合的方式学习红外弱小目标的深层特征，通过一系列实验证明了网络对复杂背景下不同尺寸红外小目标的检测能力。Li等人提出的密集嵌套注意网络(DNANet)采用了稠密卷积架构增强了深度特征层间的信息交互和特征融合，避免了深层语义中红外小目标特征的丢失，显著提高了红外小目标的检测性能。还有很多基于深度学习的方法提出，都为红外小目标检测技术的发展贡献了新的思路和解决方案。
但是在低信杂比条件下进行红外弱小目标检测时，由于目标信号微弱且空间不显著，仅依赖于采用空域的检测方法难以有效的检测红外弱小目标。在这种情况下，一批研究人员开始新的探索，即采用有限数量的连续帧数据来进行低信杂比红外弱小目标的检测。利用时间序列数据有助于捕捉红外弱小目标的时空信息，以提高低信杂比红外弱小目标的检测能力。对相邻两帧红外小目标区域时空特征进行分析，如图1所示，由于探测器的高帧频成像，红外小目标在像面上的位移有限，因此相邻两帧通过能量的累加可提高弱小目标的显著性，同时红外小目标存在微动效应，通过帧间差分可获得红外小目标的帧间变化与运动特征。如果可以把能量累加与帧间差分特征进行有效的融合，将大幅提高低信杂比目标的检测能力。进一步的，可采用深度学习的方式自主的进行邻帧图像空域显著性的提取与能量累加-帧间差分的智能融合，端到端的实现邻近两帧图像到红外小目标概率的映射。
图1 方法动机
基于上述分析，研究提出了一种创新的红外弱小目标邻帧检测网络(Inter-frame Infrared Small Target Detection)，该网络是基于累积-差分U型孪生网络架构。总结来说，本文主要的贡献总结如下。
1）针对低信杂比红外小目标检测问题，我们提出了一个基于累积-差分模块U型孪生网络的红外弱小目标邻帧检测算法框架，基于U型孪生网络、累积-差分注意力模块与解码模块融合邻帧的时空信息，端到端的实现了基于邻帧图像的红外弱小目标的检测。
2）采用了共享权重的孪生网络提取邻近两帧图像的多尺度空域显著性特征，在解码网络中通过上采样将深层特征与浅层特征融合获得红外小目标概率图，实现了两帧图像与红外小目标概率图的映射。
3）在U型网络的跳连接中设计了累积-差分注意力模块融合邻帧信息，通过帧间空域显著性特征与帧间的差异特征的融合，并对融合后的特征引入了注意力机制，进一步提高了红外小目标帧间时空特征的提取能力；
4）实验结果证明提出方法的优越性。与现有方法相比，提出的方法对于低信杂比的红外弱小目标能够保持很小的性能下降，并在提出的新测试集上保持优异性能，体现出很强的泛化能力，并且具有更小的网络复杂度和更高的实时性。
2、方法部分
在本节中，将介绍ADSUNet的具体实现方法。首先，描述了ADSUNet的主体结构，紧接着展开介绍了网络的三大组成结构：Encoder、Accumulation-Difference Attention Module、Decoder，其中主要介绍提出的Accumulation-Difference Attention Module，最后，介绍网络的损失函数。
A. Framework Overview
通过端到端网络充分融合相邻两帧红外图像的信息，使网络自主的学习红外弱小目标的空间显著性特征及帧间时空特征，其中时空特征主要指红外小目标时空的能量累加以及红外小目标运动导致的帧间微变差异，以增强对低信杂比、微动红外弱小目标的检测能力。如图2所示，提出网络的总体结构受Unet和Siamese Network的启发，主要由三大部分构成：Encoder（Section III-B）、Accumulation-Difference Attention Module（Section III-C）、Decoder（Section III-D）。
Section III-B介绍了用于提取红外图像中红外弱小目标多尺度高维深度特征的孪生网络，该结构采用了两路分支分别对输入的相邻两帧图像进行处理，通过4次下采样获得不同尺度的特征，并在下采样中拓宽深度特征的维度，有效的获取输入图像的空域特征，两支路网络的权重参数共享，有利于收敛。Section III-C介绍提出的Accumulation-Difference Attention Module，该模块增加在Unet的跳连接中，在模块中首先对两路网络获得的特征图进行差分处理与累加处理得到差分特征与累加特征，其次将差分特征与累加特征进行级联拼接并利用注意力机制来自主调解差分特征与累加特征（Accumulation-Difference）的融合，获得红外弱小目标帧间时空特征。Section III-D和Section III-E分别介绍深层特征多级逐层解码网络（Decoder）和损失函数。
图2 整体网络结构
B. Encoder
由于红外小目标是尺度定义为1×1~9×9像素的目标，因此在下采样的过程中如果采用很深层的特征提取网络，红外小目标的语义信息在深层网络中会消失，并不能有助于红外小目标的检测。所以，编码器采用了经典的ResNet18作为主干网络来提取图像的多尺度特征，由于ResNet18中仅有3次降采样，经过降采样后，特征图尺寸从H×W降低到(H/8)×(W/8)，在最深层仍能够保留红外小目标的语义信息。经过Decoder，特征维度从1扩张到128维，更多的通道数有助于红外弱小目标细节特征的表示。
编码器可以生成多尺度特征，其中高层特征保留了较强的语义信息，而低层特征保留了细节信息。根据输出特征图的尺寸，编码器分为4层。
为了邻帧红外图像特征的有效学习，编码器中两个网络分支之间的权重是共享的。通过共享权重，在一次训练中能够同时有效的利用两帧输入图像的信息进行权重参数的迭代优化，加快了网络的收敛。
C. Accumulation-Difference Attention Module
Accumulation-Difference Attention Module负责邻帧输入图像的融合处理操作，共采用了4个Accumulation-Difference Attention Module分别对4级尺度的特征图进行处理，Accumulation-Difference Attention Module主要包括了累积-差分融合处理机制与注意力机制两大部分，如图3所示。
图3 Accumulation-Difference Attention Module
D. Decoder
在Decoder进行多级的帧间Accumulation Feature and Difference Feature的融合，通过上采样将低分辨率的深层语义特征进行扩展，使其能够与上一层高分辨率特征图尺寸进行对齐实现融合，经过逐级的深层语义特征与浅层细节特征的融合，逐步递进来获取红外小目标精确的检测结果。
E. Loss Function
mIoU（Mean Intersection over Union）是一种常用的图像分割任务的评价指标，用于衡量预测结果与真实Label之间的相似度，基于mIoU指标衍生的mIoU损失对于样本类别分布不平衡的分割任务具有很强的鲁棒性。红外小目标检测实际上也是一种图像分割任务，同时红外小目标占图像的像素数低于0.15%，是典型的小样本检测任务。因此本文采用了mIoU损失。
3、实验部分
【具体的其它内容请参考发表的原文】
为阐述我们方法的性能，我们将提出的方法与state-of-the-art的红外弱小目标检测方法进行比对，包括了传统方法（MPCM，HBMLCM，WSLCM，RLCM，TLLCM，NIPPS，RIPT，WLDM，FKRW，MGRG，STLCF）及基于深度学习的方法（ISTDU_Net、RISTD_Net、DNA_Net、DTUM_Net）。所有的传统方法采用的参数使用它们的默认参数，基于深度学习的方法均在训练集上进行了重新的训练以获得最新权重，算法具体参数设置如表6所示。
在这里插入图片描述

Quantitative Results:
在红外小目标的检测性能方面，与其他算法进行ROC曲线性能的对比，绘制的ROC曲线如下图所示。

首先，从算法类型对检测性能影响的角度，基于深度学习的算法普遍优于传统算法，说明了数据驱动的深度学习方法在红外小目标检测上的优势。
进一步的，通过观察不同方法在测试数据集上得到的ROC曲线可以看出，无论是高信杂比目标还是低信杂比目标，本文提出方法的ROC曲线均处于坐标轴的左上角区域，但是如RLCM、WSLCM、RIPT、RISTDU_Net等算法在低信杂比目标的测试序列（NUDT-MIRSDT Low SNR、IFIRDST Test_SeqB）上性能下降尤其明显，表明了目前的大部分算法只适用于高信杂比的红外小目标，对低信杂比目标的检测性能有限。
进一步的，我们统计了在NUDT-MIRSDT与IFIRDST上TPR、FPR及AUC结果，如表7、表8所示：

从上述结果不难得到结论：
（1）在表7中，观察不同算法在High SNR测试集(NUDT-MIRSDT High SNR)与Low SNR测试集(NUDT-MIRSDT Low SNR)上的AUC值，不难发现大部分算法在Low SNR测试集上的AUC出现大幅下降，如MPCM、WSLCM、RIPT、STLCF、DNA_Net等算法的AUC值分别下降了0.371、0.471、0.245、0.225、0.201，说明了算法性能很大程度上受到目标信杂比的影响，大部分算法对于低信杂比的红外弱小目标检测性能有限。
（2）继续在表7中，我们的算法与DTUM_Net的TPR、FPR、AUC明显优于相对比的其它算法，尤其是在Low SNR测试集(NUDT-MIRSDT Low SNR)上，AUC分别能达到0.993与0.995，相比于High SNR测试集(NUDT-MIRSDT High SNR)仅下降了0.006、0.004。表明了我们的算法与DTUM_Net具有对低信杂比红外弱小目标的检测能力。
（3）在表8中可以看到提出网络模型的复杂度、算法实时性与其它基于深度学习方法的对比情况。提出算法的参数量仅为1.498M，FLOPS为24.89GFLOPS，是对比算法中运算次数最小的。FPS达到30.97，能满足实时性要求，是基于深度学习方法中效率最快的。
Qualitative Results:
如图7所示，我们展示了NUDT-MIRSDT测试集上10幅典型输入图像的算法处理结果，根据前面定量分析结果，展示的算法包括了NIPPS、STLCF、ISTDU Net、RISTD Net、DTUM Net与我们提出的算法，它们都是定量分析中性能较好的方法。

其中Img1~Img4来自NUDT-MIRSDT High SNR，红外小目标信杂比高，所列的6个算法能够有效的检测到其中的红外小目标，仅NIPPS在Img4中出现了目标的漏检。
但是，针对目标信杂比低的Img5-Img10( From NUDT-MIRSDT Low SNR)，NIPPS、STLCF与RISTD_Net都没有检测到真实的目标，均产生了漏检，ISTDU_Net成功检测到Img6、Img8中的目标，而其它测试图像中的目标也没有成功被检测到。
我们提出的算法与DTUM_Net对所有测试图像中的目标都能成功检测，但是在测试图像Img2、Img3、Img4、Img5中，DTUM_Net算法在红外小目标周边产生了与目标主体分离的检出区域，导致目标检出区域不完整与潜在虚警。而本文提出的方法能够完整的检出红外弱小目标，且没有产生虚警。

我们对提出算法进行了特征图的可视化工作，采用了GradCAM作为可视化模型。如图9所示，展示了ADSUNet的Decoder中4级特征图的可视化结果，对应了网络的最深层到最浅层。

其中热力图的深色区域表明该区域对最终检测结果的贡献程度高，可以理解为网络的注意力集中在热力图的深色区域。可以看出，通过Decoder中不断的上采样操作，将深层的语义特征与浅层的细节纹理特征逐渐融合，网络的注意力最终都集中在红外小目标所在的区域，符合网络模型的预期，也表明了提出的ADSUNet是有效的。
4、CONCLUSION
在本文中，我们采用端到端的设计实现了邻帧图像的红外弱小目标检测，提出的ADSUNet面向低信杂比红外弱小目标的检测表现出了优异的性能。ADSUNet以孪生网络与U型网络为基础，利用我们设计的差分-累加注意力模块(Accumulation-Difference Attention Module)有效的融合了邻帧图像的时空信息，主要包括了空间显著性累加特征与时空差异信息，能够实现低虚警率下的红外弱小目标检测。在开源数据集上进行了性能对比测试，与其他算法相比，尤其针对低信杂比的红外弱小目标，ROC、AUC等指标均优于其它现有的算法，在新提出的测试集上仍能保持优异的水平，说明网络的强泛化能力。并且算法模型参数量仅为1.498M易于轻量化算力平台的部署，FPS能高达30.97，满足红外小目标检测的实时性要求。