多尺度频率辅助类 Mamba 线性注意力模块(MFM),融合频域和空域特征,提升多尺度、复杂场景下的目标检测能力

         在伪装物体检测领域,现有方法大多依赖空间局部特征难以有效捕捉全局信息,而 Transformer 类方法虽能建模长距离依赖关系,却存在计算成本高、网络结构复杂的问题。同时,频域特征虽具备全局建模能力,可频繁的频域与空域转换会增加计算复杂度。此外,Mamba 方法凭借高效的注意力机制和轻量化设计,在降低计算成本方面展现出巨大潜力,但其在伪装物体检测中的应用尚未被充分探索。基于此,为解决传统方法在全局信息捕捉和计算效率上的不足,MFM 模块应运而生,它融合频域和空域特征,通过多尺度策略进一步提取全局信息,优化了传统基于 Transformer 的方法。

1.MFM(Multi-scale Frequency-Assisted Mamba-Like Linear Attention)原理

        MFM 模块的核心原理是将频域特征与类 Mamba 线性注意力机制相结合,以实现高效的全局特征建模。其借助快速傅里叶变换(FFT)将输入特征转换到频域,生成查询 Q、键 K 和值 V,通过频域注意力机制捕捉全局依赖关系,再经逆快速傅里叶变换(IFFT)转回空域。同时,引入线性注意力机制替代传统非线性 Softmax,降低计算复杂度,并利用选择性状态空间模型(如 MLLA)中的遗忘门机制(结合 LePE、RoPE 和 CPE 等位置编码),增强对长序列特征的处理能力。此外,通过多尺度结构(如采用不同尺寸的深度 wise 卷积)处理不同尺度的特征,结合频率权重模块(FWM)进行残差连接,强化频域信息的表示,从而在有效捕捉全局信息的同时,降低计算开销。

MFM 模块的设计融合了频域特征提取、多尺度处理及类 Mamba 线性注意力机制,具体结构如下:

  1. 输入预处理阶段
    输入特征 Ei​ 首先经过条件位置编码(CPE)处理,以增强特征的位置信息表征,随后通过层归一化(LN)稳定特征分布,得到张量 E~i​。这一步骤确保后续操作中特征的空间位置关系和数值稳定性。

  2. 多尺度特征分解与提取
    将 E~i​ 沿通道维度拆分为多个分支,每个分支先通过 1×1 卷积降低通道维度,再分别经过不同尺寸的深度 wise 卷积(如 3×3、5×5)生成多尺度特征张量。例如,采用 3×3 和 5×5 深度 wise 卷积捕捉不同感受野下的局部特征,使模块能够处理图像中不同大小的目标或细节。

  3. 线性注意力机制集成
    对每个尺度的特征张量,先通过激活函数(如 Sigmoid)进行非线性变换,再经 reshape 操作调整维度,输入线性注意力层 La​。线性注意力层采用类 Mamba 的选择性状态空间模型(SSM)结构,通过遗忘门机制(结合 LePE、RoPE 等位置编码)建模长距离依赖关系,替代传统 Transformer 的二次复杂度注意力,将计算复杂度降至线性级别。不同尺度的注意力结果经拼接(Φ)后得到融合特征 Ai​。

  4. 频域信息增强模块
    引入频率权重模块(FWM)强化频域特征表示:通过快速傅里叶变换(FFT)将输入特征转换至频域,经卷积、批归一化、GELU 激活等操作生成频域权重,再与原频域特征点乘,最后通过逆傅里叶变换(IFFT)转回空域,形成频域残差连接。该过程增强了特征中的全局频域信息,抑制背景噪声。

  5. 特征融合与输出
    将多尺度注意力融合特征 Ai​ 与频域增强后的特征进行点乘,再通过 1×1 卷积调整通道维度,得到 Fi1​。随后,Fi1​ 与 FWM 处理后的残差特征、原始输入特征 Ei​ 相加,并再次经过 CPE 编码,得到 Fi2​。最后,Fi2​ 与多层感知机(MLP)处理后的结果、层归一化(LN)输出融合,形成最终输出特征 Fi​,实现多尺度频域 - 空域特征的高效整合。

        整个结构通过多尺度分解、线性注意力机制和频域残差连接,在降低计算复杂度的同时,增强了模型对全局上下文和多尺度目标的表征能力,适用于伪装物体检测等需要捕捉复杂特征依赖关系的任务。

2. MFM习作思路​

一)医学领域

在医学相关论文中,可描述为:“针对医学影像中病变区域与周围组织相似度高、边界模糊等检测难题,提出将 MFM 模块应用于医学伪装物体(如病变区域)检测。该模块通过多尺度频域 - 空域特征融合,有效捕捉医学影像中病变组织的全局结构特征,抑制复杂背景噪声,提升对微小病变或边界模糊病变的检测精度。同时,基于类 Mamba 的线性注意力机制,降低了模型计算复杂度,使其适用于医学影像的实时分析与诊断。”

(二)遥感领域

在遥感领域论文中可表述为:“在遥感图像中,伪装目标(如军事设施、隐藏建筑等)常与自然背景高度融合,传统方法难以有效检测。MFM 模块通过多尺度频域注意力提取遥感图像中的全局上下文信息,增强对不同尺度伪装目标的特征表示,克服了遥感图像中目标尺度变化大、背景复杂的挑战。结合类 Mamba 的轻量化设计,该模块在保证检测精度的同时,大幅降低了计算量,适用于大规模遥感图像的高效处理。”

(三)缺陷检测领域

对于缺陷检测领域,可这样描述:“工业产品表面缺陷常因与正常区域纹理、颜色相似而难以识别,MFM 模块被引入缺陷检测任务。其通过多尺度频域 - 空域特征协同处理,有效提取缺陷的全局特征,区分缺陷与正常区域的细微差异,提升对微小缺陷、复杂纹理表面缺陷的检测能力。基于线性注意力的类 Mamba 机制,使模型在工业实时检测场景中具有更高的效率和实用性。”

(四)农业领域

在农业相关论文中,可描述为:“农业场景中,病虫害植株、杂草等伪装目标与正常作物外观相似,检测难度大。MFM 模块通过融合多尺度频域和空域特征,捕捉农业目标的全局光谱与结构特征,增强对病虫害早期症状、杂草与作物的区分能力。类 Mamba 的线性注意力机制降低了模型计算复杂度,使其能够在农业无人机、田间机器人等设备上实现实时检测,为精准农业提供技术支持。”

3. YOLO与MFM的结合     

        MFM 与 YOLO 结合时,借多尺度频域 - 空域特征融合强化 YOLO 对小目标、多尺度目标的特征提取能力,提升复杂场景下的检测精度;频域全局建模抑制背景干扰,与 YOLO 的强泛化性互补,增强模型在光照变化、复杂背景下的鲁棒性。

4. MFM代码部分

多尺度频率辅助类 Mamba 线性注意力模块(MFM),使用类mamba模块,融合频域和空域特征,提升多尺度、复杂场景下的目标检测能力_哔哩哔哩_bilibili

YOLO12模型改进方法,快速发论文,总有适合你的改进,还不改进上车_哔哩哔哩_bilibili

 代码获取:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. MFM引入到YOLOv12中

第一: 先新建一个v12_changemodel,将下面的核心代码复制到下面这个路径当中,如下图如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。

            ​​​​​​         

第二:在task.py中导入

 ​​​                

第三:在task.py中的模型配置部分下面代码

                   ​​​​​​​​​​​​​​ 

第四:将模型配置文件复制到YOLOV12.YAMY文件中

       ​​​​​​​​​​​​​​ 

     ​​​​​​​ ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​第五:运行代码


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_MFMamba_Like_Linear Attention.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

 上面是原模型,下面是改进模型

改进后的模型

 ​​​​​​​​​​​​​​ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/88961.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/88961.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Dify的默认端口怎么修改

1.定位配置文件 在 Dify 的安装目录中找到 .env 文件(通常位于 docker/ 子目录下)。此文件定义了 Docker 容器的环境变量,包括端口配置。 2.调整端口参数 修改以下两个关键配置项: # Docker 容器内部 Nginx 监听的端口&#xf…

Go内存分配

图解Go语言内存分配 - 知乎 go内置运行时,采用了自主管理,实现更好的内存使用模式,不需要每次内存分配都进行系统调用 采用TCMalloc算法:把内存分为多级管理,从而降低锁的粒度 将可用的堆内存采用二级分配的方式进行…

cursor使用mcp连接mysql数据库,url方式

背景。 用cursor生成后端代码。让cursor可以创建响应的表结构以及插入数据。使用的cursor版本是1.2.1 cursor 官网 mcp 说明smithery 中mysql mcp这个mcp具有建表的本领。 在cursor中是这样配置的。 以上这种配置方式是是通过在smithery 网站中配置好自己的mysql数据库连接后才…

Twisted study notes[1]

文章目录serverreferencesserver Twisted usually using subclass twisted.internet.protocol.Protocol to treat protocols .Protocol is a fundamental class in Twisted for implementing network protocols.protocol class instant don’t exists forever because of it w…

Python 数据建模与分析项目实战预备 Day 6 - 多模型对比与交叉验证验证策略

✅ 今日目标 引入多种常见分类模型(随机森林、支持向量机、K近邻等)比较不同模型的训练效果使用交叉验证提升评估稳定性🧾 一、对比模型列表模型类名(sklearn)适用说明逻辑回归LogisticRegression基础线、易于解释KNNK…

xss-labs 1-8关

level1打开检查&#xff0c;发现test直接放入h2标签中此时通过script绕过h2标签构造payload127.0.0.1/xss-labs/lvel1.php?name<script>alert(111)</script>直接使用script标签绕过h2,并执行alert,通过level2打开检查&#xff0c;输入的123被放在input标签里面的v…

Conda 核心命令快速查阅表

本表旨在提供一个简洁、高效的 Conda 命令参考&#xff0c;专注于最常用功能的快速查找。 1. 环境管理 (Environment Management)功能 (Function)命令 (Command)示例 (Example)创建新环境conda create -n <env_name> [packages...]conda create -n myenv python3.9 panda…

音视频学习(三十九):IDR帧和I帧

主要区分&#xff1a;I 帧 是帧内编码帧&#xff0c;IDR 帧 是一种特殊的 I 帧&#xff0c;它是“清除参考帧链的强制切断点”。H.264 视频结构 结构 H.264 视频由多个 NAL&#xff08;Network Abstraction Layer&#xff09;单元 构成&#xff0c;每一帧图像可由一个或多个 NA…

人工智能与机器学习暑期科研项目招募(可发表论文)

人工智能与机器学习暑期科研项目招募 华中科技大学博士论文指导我是计算机专业的研二学生&#xff1a;从大二开始接触科研&#xff0c;至今已发表1篇CCF-A类会议论文、1篇CCF-B类会议论文&#xff0c;以及2篇Top期刊论文。正是这段从本科开始的科研经历&#xff0c;让我在保研和…

C盘爆满?一键清理恢复极速体验!“小番茄C盘清理”彻底解放你的电脑

目录 前言 C盘变红&#xff1f;&#xff01;那么你的电脑将会出现下面糟糕的情况&#xff1a; 一、小番茄C盘清理介绍——拯救你的C盘爆红&#xff01; 二、安装登录小番茄C盘清理 2.1 安装小番茄C盘清理 2.2 登录—拥有专属自己电脑的小番茄C盘清理 三、手把手教你深度…

UI前端大数据可视化实战技巧:如何利用数据故事化提升用户参与度?

hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言&#xff1a;从 “图表堆砌” 到 “故事共鸣” 的可视化革命当企业管理者面对布满折线…

CSS基础1.1

HTML骨架<!DOCTYPE html> <!-- 中文网站 --> <html lang"zh-CN"> <head><!--charset"UTF-8" 规定网页的字符编码 --><meta charset"UTF-8"><!-- ie(兼容性差) / edge --><meta http-equiv"X…

前端基础JavaScript 笔记

本文是基于 B 站 pink 老师前端 JavaScript 课程整理的学习笔记 JS简介 JavaScript是一种运行在客户端&#xff08;浏览器&#xff09;的编程语言 作用&#xff1a;1.网页特效(监听用户的一些行为让网页作出对应的反馈) 2.表单验证(针对表单数据的合法性进行判断) 3.数据交互…

「小程序开发」项目结构和页面组成

微信小程序目录 微信小程序的目录,每种文件都有特定用途,组合起来才能构建完整应用。 小程序最基本的目录结构通常包含这些部分: my-miniprogram/ ├── pages/ // 存放所有页面 │ ├── index/ // 存放index页面的逻辑文件 │ └── logs/ …

[element-ui]el-table在可视区域底部固定一个横向滚动条

背景当el-table的列太多时&#xff0c;得拖动横向滚动条才能看到&#xff0c;但如果内容也很多&#xff0c;可能横向滚动条还看不到&#xff0c;又得滑到最下方才能拖动滚动条&#xff0c;这样不太方便。若内容过多时&#xff0c;有个固定在可视区域的横向滚动条就好了&#xf…

大模型核心组件结构与计算顺序详解(Embedding/FFN/LayerNorm等)

在大模型&#xff08;如GPT、BERT、LLaMA等&#xff09;的架构设计中&#xff0c;各个组件的协同工作是模型性能的核心保障。本文将详细解析大模型中Embedding、前馈神经网络&#xff08;FFN&#xff09;、LayerNorm、Softmax、MoE、残差连接的作用及计算顺序&#xff0c;帮助理…

希尔排序:突破传统排序的边界

一、算法思想希尔排序&#xff08;Shell Sort&#xff09;&#xff0c;也被叫做缩小增量排序&#xff0c;是插入排序的一种改进版本。希尔排序的核心在于先将整个待排序的记录序列分割成若干个子序列&#xff0c;分别进行直接插入排序。随着增量逐渐减小&#xff0c;子序列的长…

Kafka事务消息与Exactly-Once语义实战指南

Kafka事务消息与Exactly-Once语义实战指南 在分布式微服务或大数据处理场景中&#xff0c;消息队列常被用于异步解耦、流量削峰和系统伸缩。对于重要业务消息&#xff0c;尤其是金融、订单、库存等场景&#xff0c;消息的精确投递&#xff08;Exactly Once&#xff09;和事务一…

26.将 Python 列表拆分为多个小块

将 Python 列表拆分为多个小块(Chunk a List) 📌 场景 1:按份数 chunk_into_n(lst, n) 将一个列表平均拆分为 n 个块。如果不能整除,最后一块会包含剩余元素。 ✅ 示例代码 from math import ceildef chunk_into_n(lst, n):size = ceil(len

18.理解 Python 中的切片赋值

1. 切片语法回顾 标准切片语法格式为: [start_at : stop_before : step]start_at:起始索引(包含)stop_before:结束索引(不包含)step:步长(默认为 1)例如: lst = [1, 2,