PFAE(Pyramidal Frequency Attention Extraction)通过频域注意力机制提高边界模糊、遮挡等场景的的检测能力

         在伪装物体检测中,现有方法多依赖空间局部特征,难以捕捉全局信息,而 Transformer 类方法计算成本高昂。频率域特征因具备全局建模能力,可有效抑制背景噪声、提升伪装物体语义清晰度,但频域与空域的频繁转换会增加计算复杂度。基于此,PFAE 模块被提出,旨在通过频域注意力机制更高效地提取高频特征,解决传统方法在处理边界模糊、遮挡等场景时的局限性。

1.PFAE原理

        PFAE 模块的核心原理是结合频域注意力与多尺度特征融合。首先,对输入特征进行通道降维,通过不同膨胀率的扩张卷积分支提取多尺度特征;每个分支利用快速傅里叶变换(FFT)生成查询 Q、键 K 和值 V,经点乘、激活实部与虚部后得到频域注意力图,再与 V 点乘并通过逆傅里叶变换(IFFT)转回空域。过程中引入频率权重模块(FWM)进行残差连接,最后通过卷积操作与残差连接生成混合特征,实现对频域信息的增强与多尺度特征的聚合。

PFAE 模块的结构如图 2 所示,主要包含以下部分:

        特征降维:通过 1×1 卷积对输入特征 E₄降维,得到E^4​。

        多尺度扩张卷积分支:4 个分支,膨胀率为2n−1(n≥2),每个分支包含频域注意力模块。

        频域注意力计算:利用 FFT 生成 Q、K、V,计算注意力图Af​,并通过 IFFT 转回空域。

        频率权重模块(FWM):通过频域残差连接增强频域信息表示。

        特征融合与输出:通过卷积操作与残差连接,将多分支特征融合生成最终输出E5​。

2. PFAE 在不同领域的应用描述

医学领域

        在医学影像伪装目标检测相关论文中,PFAE 模块可被描述为:“针对医学影像中病灶与周围组织边界模糊、易受噪声干扰的挑战,提出基于频域注意力的金字塔频率注意力提取模块(PFAE)。该模块通过多尺度扩张卷积捕获不同大小的病灶特征,结合频域变换抑制背景噪声,增强病灶区域的语义特征。在肺部结节、乳腺肿瘤等检测任务中,PFAE 能有效提取隐藏于复杂解剖结构中的病灶高频特征,提升分割精度,为医学辅助诊断提供更可靠的依据。”

遥感领域

        用于遥感图像伪装目标检测的论文中,可这样描述 PFAE:“在遥感场景中,伪装目标(如军事设施、隐藏车辆等)常与自然背景高度相似,传统方法难以有效区分。PFAE 模块通过频域注意力机制,捕捉目标与背景在频率域的差异特征,抑制植被、地形等复杂背景的干扰。多尺度结构可适应不同大小目标的检测需求,从遥感图像的高频分量中提取目标的轮廓与结构信息,实现对伪装目标的鲁棒检测,为遥感监测与安全预警提供技术支持。”

缺陷检测领域

        在工业缺陷伪装检测的论文中,PFAE 的描述可如下:“工业产品表面缺陷常因光照、纹理等因素与正常区域难以区分,传统方法易受局部特征干扰。PFAE 模块通过频域变换提取缺陷区域的高频特征,结合多尺度扩张卷积捕获不同尺度的缺陷模式,有效抑制产品表面纹理、划痕等噪声的影响。在金属板材、半导体晶圆等缺陷检测中,该模块能从复杂背景中精准定位伪装缺陷,提升检测的准确率与鲁棒性,为工业质量控制提供高效解决方案。”

农业领域

        于农业伪装目标检测相关论文中,PFAE 可表述为:“农业场景中,病虫害植株、杂草等伪装目标常与正常作物外观相似,传统检测方法难以精准识别。PFAE 模块利用频域注意力机制,提取病虫害叶片、杂草等目标的独特频率特征,抑制作物叶片纹理、自然光照等背景干扰。多尺度结构可适应不同生长阶段目标的检测需求,从图像高频分量中增强目标的语义信息,实现对农田中伪装目标的准确识别与定位,为精准农业管理提供技术支撑。”

3. PFAE与yolo结合       

        将PFAE与YOLO结合时,可借助PFAE的频域注意力与多尺度特征提取能力,增强YOLO对伪装目标的全局语义理解,抑制复杂背景干扰;其轻量化结构适配YOLO的实时检测框架,在工业缺陷、遥感目标等场景中,能提升YOLO对边界模糊、尺度多变伪装目标的检测精度与鲁棒性,同时保持高效推理速度。

4. PFAE代码部分

PFAE(金字塔频率注意力提取模块)抑制复杂背景干扰,提升小目标、边界模糊目标的检测精度_哔哩哔哩_bilibili

YOLO12模型改进方法,快速发论文,总有适合你的改进,还不改进上车_哔哩哔哩_bilibili

 代码获取:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

5. PFAE引入到YOLOv12中

第一: 先新建一个v12_changemodel,将下面的核心代码复制到下面这个路径当中,如下图如所示。E:\Part_time_job_orders\YOLO_NEW\YOLOv12\ultralytics\v12_changemodel。

            ​​​​​​           

第二:在task.py中导入

 ​​​           ​​​​​​​       

第三:在task.py中的模型配置部分下面代码

                   ​​​​​​​​​​​​​​ ​​​​​​​  

第四:将模型配置文件复制到YOLOV12.YAMY文件中

       ​​​​​​​​​​​​​​ ​​​​​​​  

     ​​​​​​​ ​​​​​​​​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​第五:运行代码


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorldif __name__=="__main__":# 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型model = YOLO("/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/models/12/yolo12_PFAE.yaml")# .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weightsresults = model.train(data="/home/shengtuo/tangfan/YOLO12/ultralytics/cfg/datasets/fire_smoke.yaml",epochs=300,imgsz=640,batch=4,# cache = False,# single_cls = False,  # 是否是单类别检测# workers = 0,# resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',amp = True)

 上面是原模型,下面是改进模型

  

 ​​​​​​​​​​​​​​ ​​​​​​​  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/87852.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/87852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AE插件安装方法

Adobe After Effects简称AE,是adobe公司开发的一个视频剪辑及设计软件,AE软件能够实现对素材的非线性编辑而完成画面的组接,同时还能对任何一部分进行修改,达到想要的结果。AE含有很多脚本、常用的表达式和插件,做动画…

舵轮时钟-STM32-28路PWM--ESP8266-NTP时间

1.STM32--PWM生成STM32不具备如此多的PWM,因此采用软件定时器的方案实现:使用hal库实现;main.c#include "main.h"#define close1 500#define open 1500#define close 2500// 定时器中断配置(以TIM2为例) voi…

Redis的单线程和多线程(单Worker线程)

Redis的单线程和多线程 Redis6.0之前是单线程的,6.0之后是多线程的,我们先了解6.0版本之前的单线程Redis。但其实无论6.0之前还是6.0之后,redis用于工作的线程也只有一个,所以也可以说redis一直是单线程的。 Redis单线程 Redis 6.…

OSPFv3基础

文章目录 OSPFv3基础OSPFv3的改进OSPFv2 v3相同OSPFv2 v3不同 🏡作者主页:点击! 🤖Datacom专栏:点击! ⏰️创作时间:2025年07月07日22点31分 OSPFv3基础 OSPFv3协议号依然为89,在I…

前端篇——HTML知识点体系

目录 一、基础结构与文本 1. 文档基础 2. 文本元素 二、多媒体元素 1. 图像 2. 音频 3. 视频 三、列表系统 1. 无序列表 2. 有序列表 3. 定义列表 四、表格系统 1. 表格结构 2. 合并单元格 五、表单系统 1. 输入控件 2. 表单元素 3. 高级表单特性 六、布局系…

产品需求管理文档中,需求模块是怎么界定的

产品需求文档中,需求模块的界定方式主要包括:1、基于业务流程的功能划分、2、按用户角色使用场景分类、3、根据系统架构与技术边界拆解、4、对数据实体和功能点进行组合聚类、5、结合未来演进节奏设置独立迭代单元。 其中,“基于业务流程的功…

国内免代理免费使用Gemini大模型实战

文章目录 一、免费申请Gemini API密钥二、使用openai-gemini1、在github上找到openai-gemini2、将openai-gemini部署到Netlify3、在Cherry Studio中配置和使用gemini的模型1)在Cherry Studio中配置gemini API2)在Cherry Studio中使用gemini 的模型 4、在…

day46-tomcat-java业务部署

1. ✅选型1.1. 🎯中间件java web中间件说明tomcat组件,功能多jetty精简,功能少一些......weblogic使用oracle数据库配合weblogic(商业)国产:东方通(TongWEB)1.2. 📌jdkjdk选型说明jdk(oracle jdk)商业版,jd…

[netty5: HttpServerCodec HttpClientCodec]-源码分析

在阅读该篇文章之前,推荐先阅读以下内容: [netty5: ChannelHandler & ChannelHandlerAdapter]-源码解析[netty5: HttpObjectEncoder & HttpObjectDecoder]-源码解析 HttpServerCodec HttpServerCodec 是一个 Netty 编解码器,结合 …

华为OD机试 2025B卷 - 数组组成的最小数字(C++PythonJAVAJSC语言)

2025B卷目录点击查看: 华为OD机试2025B卷真题题库目录|机考题库 + 算法考点详解 2025B卷 100分题型 最新华为OD机试 真题目录:点击查看目录 华为OD面试真题精选:点击立即查看 2025华为od 机试2025B卷-华为机考OD2025年B卷 题目描述 给定一个整型数组,请从该数组中选…

Ubuntu下Tomcat的配置

进入Tomcat的conf目录下 1 备份配置文件 cp server.xml server.xml.2下载server.xml&#xff0c;用notepad文本编辑器打开 2 修改Tomcat的端口号 找到如下内容<Connector port"8080" protocol"HTTP/1.1"connectionTimeout"20000"redirectPort…

Docker部Ollama安装、本地大模型配置与One-API接入

Docker 安装 Ollama Ollama 支持 Docker 安装,极大简化了部署流程。以下是具体步骤: 创建ollama文件夹 创建 docker-compose.yaml 文件新建一个 docker-compose.yaml 文件,内容如下: 编辑文件 …

ABB焊接机器人智能节气仪

在现代焊接工业中&#xff0c;ABB焊接机器人凭借其高精度、高效率等优势被广泛应用。而在焊接过程中&#xff0c;节气是一个重要的考量因素&#xff0c;这就凸显出ABB焊接机器人智能节气仪的重要性。ABB焊接机器人节气是提高焊接生产效益的关键环节。传统的焊接过程中&#xff…

摄影后期:使用Photoshop进行暗角控制

方法一&#xff1a;ctrlshiftR调出镜头校正工具&#xff0c;调整晕影 方法二&#xff1a;

pyhton基础【24】面向对象进阶五

目录 十五.多继承的继承顺序 - mro 调用父类方式不同导致结果不同 单继承中的super 简单总结 面试题 十六.魔术方法 魔术方法概述 魔术方法概览 __getattribute__属性 __getattribute__注意事项 常用的魔术方法 __doc__ __module__和__class__ __init__ __del__…

如何保障MySQL客户端连接数据库安全更安全

公司员工或外协人员&#xff0c;直接使用业务账号或高权限账号连接MySQL服务器&#xff0c;如同让数据在连接时减少风险——账号密码易泄露、操作行为难追溯、安全风险陡增&#xff01;尤其是在客户端连接环节&#xff0c;如何确保每一个接入点都安全可控&#xff0c;每一次操作…

机器学习入门:线性回归详解及Scikit-learn API使用指南

一、线性回归概述线性回归是统计学和机器学习领域中最基础、最广泛应用的预测建模技术之一。自19世纪初由弗朗西斯高尔顿(Francis Galton)首次提出以来&#xff0c;线性回归已成为数据分析的核心工具&#xff0c;在经济学、社会科学、生物统计学、工程学等众多领域发挥着重要作…

高斯牛顿法求解三维变换矩阵的数学推导

目录一、问题定义二、李代数基础三、雅可比矩阵推导四、高斯牛顿迭代1. 整体雅可比矩阵2. 正规方程构建3. 参数更新4. 李代数更新五、理论优势分析一、问题定义 给定两组三维点云&#xff1a;源点云 P{pi∈R3}i1NP \{p_i \in \mathbb{R}^3\}_{i1}^NP{pi​∈R3}i1N​&#xff0…

JAVA 商城系统为什么受欢迎?ZKmall开源商城灵活定制 + 插件接入适配市场

在电商系统开发这块&#xff0c;技术选得好不好&#xff0c;直接关系到平台稳不稳定、能不能扩展、适配能力强不强。JAVA 语言因为 “跨平台性突出、安全性高、可扩展性好” 这些特点&#xff0c;成了企业级电商系统的首选技术。而 ZKmall 商城基于 JAVA 开发的商城系统&#x…

【数据结构之哈夫曼树与编码实现】

文章目录 前言一、哈夫曼树与哈夫曼编码简介1. 什么是哈夫曼树&#xff1f;2. 为什么需要哈夫曼编码&#xff1f; 二、哈夫曼编码原理三、哈夫曼树的构建步骤详解1. 统计字符频率2. 定义哈夫曼树节点3. 最小堆&#xff08;优先队列&#xff09;的构造4. 合并节点&#xff0c;构…