DEYOLO 全面复现,将双增强跨模态目标检测网络 DEYOLO 融合到 YOLOFuse 框架

模型架构模态精度 P召回率 RmAP50mAP50-95模型大小(MB)计算量(GFLOPs)
yolov8n (baseline)RGB0.8880.8290.8910.5006.28.1
yolo-fuse-中期特征融合RGB+IR0.9510.8810.9470.6012.613.2
yolo-fuse-早期特征融合RGB+IR0.9500.8960.9550.6235.26.7
yolo-fuse-决策级融合RGB+IR0.9560.9050.9550.6128.810.7
yolo-fuse-极简融合RGB+IR0.8990.8650.9390.627.838.5
DEYOLORGB+IR0.9430.8950.9520.61511.8516.6

在这里插入图片描述
在这里插入图片描述

论文地址:https://arxiv.org/abs/2412.04931
DEYOLO代码地址: https://github.com/chips96/DEYOLO
YOLOFuse项目地址:https://github.com/WangQvQ/YOLOFuse


引言

在弱光、雾霾等复杂环境下,单纯依靠可见光图像进行目标检测往往效果不佳;而红外图像能提供清晰的轮廓信息,却缺乏纹理细节。将两者融合,能够互补优势,但如何在 检测任务 导向下有效融合、并减少模态间的相互干扰,是目前的挑战。针对这一问题,本文提出了一种基于 YOLOv8 的 双增强跨模态目标检测网络 DEYOLO,通过 双语义增强通道权重分配(DECA)双空间增强像素权重分配(DEPA)双向解耦 Focus 模块,在特征层面实现“检测驱动”的跨模态信息互补与干扰抑制,并在 M3FD、LLVIP 等数据集上取得了明显优于 SOTA 的性能提升 。


背景与动机

  1. 单模态检测局限

    • 传统可见光目标检测(如 YOLO、DETR、Swin Transformer)在纹理细节丰富时表现优秀,但对弱光或遮挡场景不鲁棒。
    • 红外小目标检测网络(如 ALCNet、ISTDU-Net、IRSTD-GAN)虽能在低光条件下检测,但单独红外缺乏色彩和细节信息,难以支持复杂场景的检测需求 。
  2. 现有跨模态融合不足

    • 常见方法要么将 RGB-IR 拼四通道输入,要么在特征下游简单拼接,两者缺乏深度交互。
    • “融合-检测”策略通常先做图像融合再检测,既不以检测为中心,也没有解决融合过程中模态间的互相干扰问题 。

正是在这样的背景下,DEYOLO 从特征层面入手,设计“检测导向”的双增强机制,以期在保持两种模态各自优势的同时,最大化互补效果并抑制相互干扰。


DEYOLO 方法概览

在这里插入图片描述

DEYOLO 在 YOLOv8 的骨干与检测头之间,引入了两大跨模态增强模块(DECA、DEPA),并在骨干前期插入 双向解耦 Focus,如图所示:

Backbone
输入RGB特征
输入IR特征
双向解耦 Focus
浅层特征
DECA
DEPA
融合特征
检测头

1. 双语义增强通道权重分配模块(DECA)

在这里插入图片描述

  • 目标:在通道维度上,利用单模态与跨模态融合信息,分别 增强融合特征反向提升单模态特征 的语义表达能力。

  • 流程

    1. 跨模态融合提取:将来自骨干的 RGB/IR 特征拼接后通过卷积得到混合特征 F M i x 0 F_{Mix}^0 FMix0

    2. 通道权重编码:对 F M i x 0 F_{Mix}^0 FMix0 进行跨模态权重抽取(CMWE),得权重 W _ M i x 0 W\_{Mix}^0 W_Mix0;同时分别对 RGB、IR 特征通过 SE 结构提取单模态通道权重 W V 0 , W I R 0 W_V^0, W_{IR}^0 WV0,WIR0

    3. 双重增强

      • 第一增强:

        W V e n = W V 0 ⊗ s o f t m a x ( W M i x 0 ) , W I R e n = W I R 0 ⊗ s o f t m a x ( W M i x 0 ) W^{en}_V = W^0_V \otimes \mathrm{softmax}(W^0_{Mix}),\quad W^{en}_{IR} = W^0_{IR} \otimes \mathrm{softmax}(W^0_{Mix}) WVen=WV0softmax(WMix0),WIRen=WIR0softmax(WMix0)

      • 第二增强:

        F I R 1 = F I R 0 ⊙ W V e n , F V 1 = F V 0 ⊙ W I R e n F^1_{IR} = F^0_{IR} \odot W^{en}_V,\quad F^1_V = F^0_V \odot W^{en}_{IR} FIR1=FIR0WVen,FV1=FV0WIRen

通过上述步骤,DECA 能在通道层面 重分配注意力,兼顾单模态与融合特征的语义重要性 。

2. 双空间增强像素权重分配模块(DEPA)

  • 目标:在空间(像素)维度上,模拟 DECA 的双增强机制,用于 位置敏感 的特征融合。

  • 流程

    1. 对 DECA 输出的 F V 1 , F I R 1 F^1_V,F^1_{IR} FV1,FIR1 分别进行不同尺度的卷积提取临时权重,再形变后相乘得到跨模态空间权重 W M i x 1 W^1_{Mix} WMix1

    2. 分别使用 3×3 和 5×5 卷积获得两种尺度下的单模态像素权重 W V 1 , W I R 1 W^1_V,W^1_{IR} WV1,WIR1,再通过软最大化与 W M i x 1 W^1_{Mix} WMix1 结合。

    3. 双重增强:

      F I R = F I R 1 ⊙ W V e n , F V = F V 1 ⊙ W I R e n F_{IR} = F^1_{IR}\odot W^{en}_V,\quad F_V = F^1_V\odot W^{en}_{IR} FIR=FIR1WVen,FV=FV1WIRen

    4. 最终将二者相加,送入检测头。

DEPA 强调了空间位置上的互补信息,进一步丰富了跨模态特征的结构表达 。

3. 双向解耦 Focus

在这里插入图片描述

  • 灵感:YOLOv5 的 Focus 模块可无损下采样;DEYOLO 通过水平/垂直两种解耦采样方式,增强骨干对不同方向上下文的感受野。
  • 结构:将浅层特征按像素间隔分组,在横向与纵向分别采样,再进行深度可分离卷积,最后与原特征拼接,扩大感受野且保留细节 。

实验与结果

数据集与评价指标

  • 数据集:M3FD(4,200 对 RGB-IR)、LLVIP(16,836 对)、KAIST(清洗后 7,601/2,252) 。
  • 指标:mAP@0.5、mAP@0.5:0.95(mAP50−95)、Log Average Miss Rate (LAMR)。

消融实验

在这里插入图片描述

  • 模块贡献(Table 1):

    • 单独 DECA 或 DEPA,在 M3FD 上分别提升 mAP50 +4.2%/+3.6%,mAP50−95 +4.4%/+3.5%。
    • DECA+DEPA 联合 +4.4%/+4.6%,三者(含 Focus)则达 +5.8%/+5.3% 。
  • 核大小与层数

    • DEPA 在 3×3 卷积核时效果最佳(Table 2)。
    • DECA 使用 3 层深度可分离卷积效果优于普通卷积(Table 3)。

与 SOTA 比较

  • 单模态 vs DEYOLO

    • 可见光单模态最高 mAP50≈88.3%,红外≈78.3%;DEYOLO-n 达 86.6%、DEYOLO-l 达 91.2%(M3FD),均超越多种 ViT/RCNN、YOLOv7/8 等 。
  • 融合-检测方法

    • 与 IRFS、U2Fusion、SeAFusion 等融合算法比较,DEYOLO-n 在 M3FD 上至少领先 5.4% mAP50,DEYOLO-l 领先超过 10% 。
  • 泛化能力:在 KAIST 数据集上,虽然未夺魁,但仍优于多数 RGB-T 检测方法,说明跨光谱特征增强具有广泛适用性。


讨论与展望

  • 优势

    1. 检测导向:直接在特征层面交互融合,以检测性能为优化目标;
    2. 双增强机制:通道与空间维度的互补增强,有效抑制模态间噪声干扰;
    3. 轻量可插拔:DECA/DEPA 与双向 Focus 可插入其它骨干网络。
  • 局限与未来

    • 对齐要求较高的数据对;
    • 如何在更大尺度、更多模态(如深度/SAR)中扩展?
    • 实时性与资源消耗的权衡值得深入探索。

结语

DEYOLO 通过 双语义双空间 的“检测驱动”跨模态特征增强,结合 双向解耦 Focus,在弱光与复杂场景下显著提升了目标检测性能,为可见光与红外融合检测提供了新思路。其模块化设计也为后续多模态检测模型的构建和应用奠定了基础。未来,可在更加多样化的场景与模态上,继续探索双增强策略的广泛适用性与即时性优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86477.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86477.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python基于Django+mysql实现的图书管理系统【完整源码+数据库】

摘要 随着信息技术与教育现代化的深度融合,图书管理系统的智能化与自动化成为提升资源利用效率的关键需求。本文基于Python语言,采用Django框架与MySQL数据库设计并实现了一套功能完备的图书管理系统,旨在通过信息化手段优化图书借阅流程、强…

论软件设计方法及其应用

20250427-作 题目 软件设计(Software Design,SD)根据软件需求规格说明书设计软件系统的整体结构、划分功能模块、确定每个模块的实现算法以及程序流程等,形成软件的具体设计方案。软件设计把许多事物和问题按不同的层次和角度进行抽象&…

QT 自定义ComboBox,实现下拉框文本颜色设置

最近在做项目中遇到需求,在下拉框中,文本需要设置不同的颜色,遂网上了解了一番后,得出以下代码,可以完美实现效果,现分享出来! 1.实现效果 2.自定义类 colorcombobox.h #ifndef COLORCOMBOBOX…

【时间戳】

在编程竞赛和高效数据处理场景中,时间戳技巧是一种极其高效的标记方法,常用于避免频繁清空数组或 map,提高算法运行效率。本文将从定义、应用场景、模板代码、技巧细节等方面系统整理时间戳的使用方式。 一、时间戳技巧是什么? 时…

json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig)

有一次爬虫遇到了json的字符串响应对象 然后转为json对象 报这个错误 raise JSONDecodeError("Unexpected UTF-8 BOM (decode using utf-8-sig)", json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0) 意思是叫…

python训练day43 复习日

import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader, random_split import matplotlib.pyplot as plt import numpy as np# 设置中文字体支持,避免绘图时中文…

C++11 lambda

前言 在Cpp11以前,为了把函数当作对象调用,可以使用C中的函数指针类型,也可以使用Cpp98的仿函数。 但二者都不是很好用,函数指针 return_type (*name)(parameters)的长相就令人望而却步,仿函数将一个函数重载为一个类…

【国产化-K8s】混合架构的 K8s + KubeSphere 部署指南

本文由 KubeSphere 社区贡献者 天行1st 编写。本文为作者实践总结。本文记录了在信创环境中基于混合架构(x86 与 ARM64)部署 Kubernetes 和 KubeSphere 的实践过程,覆盖多种国产 CPU 和操作系统,具有一定的参考价值。 环境涉及软…

利用python实现NBA数据可视化

大家好,今天我们利用python爬取NBA球星每年的比赛数据并进行可视化展示。主要用到三个模块:xpath、matplotlib。其中xpth负责爬取网站上的信息。Matplotlib是Python开发人员常用的Python绘图库,可以用来绘制各种2D图形,具有绘图质…

基于 SpringBoot+JSP 的医疗预约与诊断系统设计与实现

摘要 本研究针对传统医疗预约与诊断流程中存在的效率低下、信息不透明、患者等待时间长等问题,设计并实现了一个基于 SpringBootJSP 的医疗预约与诊断系统。系统采用 B/S 架构,整合了用户管理、科室管理、医生排班、预约挂号、在线问诊、检查检验、诊断…

2025.6.27总结

最近工作又开始内耗了,一位同事的转岗直接让我破防了,明明他工作干得很不错,会得又多,性格又好,我还经常请教他业务上的问题。我和他的关系并不算太好,但他加入其他部门,竟然让我有些不舍&#…

详解HashMap底层原理

核心数据结构&#xff1a;数组 链表 / 红黑树 HashMap 的底层核心是一个 Node<K,V>[] table 数组&#xff08;通常称为 桶数组 或 哈希桶数组&#xff09;。这个数组的每个元素称为一个 桶。 Node<K,V> (链表节点)&#xff1a; 这是存储键值对的基本单位&#xf…

历史项目依赖库Bugfix技巧-类覆盖

在项目维护过程中&#xff0c;我们可能会遇到历史项目依赖的第三方库出现BUG而需要修复的情况&#xff0c;而这些第三方库可能来源于公司自主开发或开源项目&#xff0c;但由于各种原因&#xff0c;这些库可能已无人维护。 此时&#xff0c;解决这个问题有三个办法 1、基于源…

多模态大型语言模型最新综述

多模态大型语言模型&#xff08;Multimodal Large Language Models&#xff0c;MLLMs&#xff09;已迅速发展&#xff0c;超越了文本生成的范畴&#xff0c;如今能够覆盖图像、音乐、视频、人类动作以及三维物体等多种输出模态。它们通过在统一架构下将语言与其他感知模态整合&…

使用ASIO的协程实现高并发服务器

使用ASIO的协程实现高并发服务器 在 C 网络编程领域&#xff0c;Asio 库提供了两种主要的异步编程范式&#xff1a;传统的回调模式和基于协程的现代模式&#xff0c;传统的回调模式大家都很清楚&#xff0c;这里不多做介绍&#xff0c;本文主要介绍基于协程的模式&#xff0c;…

OpenCV——轮廓检测

轮廓检测 一、轮廓检测二、轮廓的层级三、轮廓的特征3.1、轮廓面积3.2、轮廓周长3.3、边界矩形3.4、最小外接圆3.5、近似轮廓3.6、凸包 一、轮廓检测 轮廓可以简单的描述为具有相同颜色或灰度的连续点连在一起的一条曲线&#xff0c;轮廓通畅会显示出图像中物体的形状。关于轮…

高等概率论题解-心得笔记【15】

文章目录 拓扑参考文献 拓扑 参考文献 《测度论基础与高等概率论》

Windows 10关闭自动更新功能

Windows 10关闭自动更新功能&#xff0c;大家是不是经常用下面的几个步骤&#xff1a; 1、禁用Windows Update服务&#xff1b; 2、在组策略里关闭Win10自动更新相关服务&#xff1b; 3、禁用任务计划里边的Win10自动更新&#xff1b; 4、在注册表中关闭Win10自动更新&…

[Meetily后端框架] 配置指南 | 后端API网关 | API文档体系

链接: https://github.com/Zackriya-Solutions/meeting-minutes docs&#xff1a;会议纪要管理系统 本项目是一个专门用于**处理会议记录**的后端系统。 系统接收会议文本内容&#xff0c;利用先进的AI模型自动识别关键信息&#xff0c;包括行动项、决策内容以及截止期限。 处…

Flink2.0 配置 historyserver

Flink2.0 配置 historyserver 主要是去修改config.yaml配置文件 主要修改的点有两个 网上很多文档都是写的只配置一个 都是坑啊 historyserver :历史服务器 运行 Flink job 的集群一旦停止(例如yarn模式&#xff0c;程序一旦停止&#xff0c;集群也就关闭了)&#xff0c;只能去…