射频信号(大宽高比)时频图目标检测anchors配置

一、大宽高比目标YOLO检测参数设置

这是yolov7的一个label的txt文件:

1 0.500 0.201 1.000 0.091
2 0.500 0.402 1.000 0.150
3 0.500 0.604 1.000 0.093
0 0.500 0.804 1.000 0.217

对应的样本:

长宽比分别是:1/0.091=10.98,  1/0.150=6.67,  1/0.093=10.75,  1/0.217=4.61

计算anchor的程序:

import utils.autoanchor as autoAC# 对数据集重新计算 anchors
new_anchors = autoAC.kmean_anchors('D:\实验室\论文\论文-多信号参数估计\实验\YOLOv7\yolov7-main\zzc-multisignals-dataset-yolov7.yaml', 4, 416, 11, 1000, True)
print(new_anchors)

其中,4代表聚类出9种锚框,416代表默认的图片大小,10表示数据集中标注框宽高比的最大阈值,1000代表kmean聚类算法迭代计算1000次。

一开始报错了:

C:\Users\14115\.conda\envs\yolov7\python.exe "D:\实验室\论文\论文-多信号参数估计\实验\YOLOv7\yolov7-main\calculate anchors.py" 
Scanning 'D:\english\yolov7\datasets_higher_cut\train.cache' images and labels... 400 found, 0 missing, 0 empty, 0 corrupted: 100%|██████████| 400/400 [00:00<?, ?it/s]
D:\实验室\论文\论文-多信号参数估计\实验\YOLOv7\yolov7-main\utils\autoanchor.py:125: RuntimeWarning: divide by zero encountered in dividek, dist = kmeans(wh / s, n, iter=30)  # points, mean distance
Traceback (most recent call last):File "D:\实验室\论文\论文-多信号参数估计\实验\YOLOv7\yolov7-main\calculate anchors.py", line 4, in <module>new_anchors = autoAC.kmean_anchors('D:\实验室\论文\论文-多信号参数估计\实验\YOLOv7\yolov7-main\zzc-multisignals-dataset-yolov7.yaml', 4, 416, 11, 1000, True)^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^File "D:\实验室\论文\论文-多信号参数估计\实验\YOLOv7\yolov7-main\utils\autoanchor.py", line 125, in kmean_anchorsk, dist = kmeans(wh / s, n, iter=30)  # points, mean distance^^^^^^^^^^^^^^^^^^^^^^^^^^File "C:\Users\14115\.conda\envs\yolov7\Lib\site-packages\scipy\_lib\_util.py", line 440, in wrapperreturn fun(*args, **kwargs)^^^^^^^^^^^^^^^^^^^^File "C:\Users\14115\.conda\envs\yolov7\Lib\site-packages\scipy\cluster\vq.py", line 467, in kmeansobs = _asarray(obs, xp=xp, check_finite=check_finite)^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^File "C:\Users\14115\.conda\envs\yolov7\Lib\site-packages\scipy\_lib\_array_api.py", line 193, in _asarray_check_finite(array, xp)File "C:\Users\14115\.conda\envs\yolov7\Lib\site-packages\scipy\_lib\_array_api.py", line 109, in _check_finiteraise ValueError(msg)
ValueError: array must not contain infs or NaNs
autoanchor: Running kmeans for 4 anchors on 1600 points...进程已结束,退出代码为 1

发现问题出在yolov7-main/utils/autoanchor.py里kmean_anchors中用标准差归一化上:

s = wh.std(0)  # sigmas for whitening
k, dist = kmeans(wh / s, n, iter=30) 
wh
array([[      322.4,      23.079],[      322.4,      38.049],[      322.4,      23.703],...,[      322.4,      26.198],[      322.4,      34.931],[      322.4,      25.574]])
wh.shape
(1600, 2)
s
array([          0,      8.5888])

可以看到,因为其中一个维度标准差为0,导致按正常归一化方法就会报错。那就检测0元素,赋一个较小值:

s[s == 0] = 1e-8

运行结果:

说明我的多信号时频图数据适合用这几个anchor:

[[      322.6      26.134]
 [     323.99      32.985]
 [        322      40.793]
 [     322.72      47.953]]


或者......如果数据集样本宽高比差不多的话,自己估摸着样本的宽高比设计anchor,在默认anchors的基础上按比例调整

默认anchor:

# anchors
anchors:- [12,16, 19,36, 40,28]  # P3/8- [36,75, 76,55, 72,146]  # P4/16- [142,110, 192,243, 459,401]  # P5/32

我的样本宽高比达大概在4:1至11:1 ,所以我自己估摸着修改anchor数值:

# anchors
anchors:- [20,10, 20,8, 20,4]  # P3/8 640->80  416->52- [80,40, 80,16, 80,8]  # P4/16 640->40 416->26- [300,100, 300,60, 300,30]  # P5/32 640->20 416->13

这么设置出问题了..... 

设置只在竖直方向进行非极大值抑制。首先定位非极大值抑制函数:

不过这样找到的函数未必一定运行到这,通过断点找非极大值抑制函数更准:

 找到了非极大值抑制函数:

def non_max_suppression(prediction, conf_thres=0.25, iou_thres=0.45, classes=None, agnostic=False, multi_label=False,labels=()):"""Runs Non-Maximum Suppression (NMS) on inference resultsReturns:list of detections, on (n,6) tensor per image [xyxy, conf, cls]"""nc = prediction.shape[2] - 5  # number of classesxc = prediction[..., 4] > conf_thres  # candidates# Settingsmin_wh, max_wh = 2, 4096  # (pixels) minimum and maximum box width and heightmax_det = 300  # maximum number of detections per imagemax_nms = 30000  # maximum number of boxes into torchvision.ops.nms()time_limit = 10.0  # seconds to quit afterredundant = True  # require redundant detectionsmulti_label &= nc > 1  # multiple labels per box (adds 0.5ms/img)merge = False  # use merge-NMSt = time.time()output = [torch.zeros((0, 6), device=prediction.device)] * prediction.shape[0]for xi, x in enumerate(prediction):  # image index, image inference# Apply constraints# x[((x[..., 2:4] < min_wh) | (x[..., 2:4] > max_wh)).any(1), 4] = 0  # width-heightx = x[xc[xi]]  # confidence# Cat apriori labels if autolabellingif labels and len(labels[xi]):l = labels[xi]v = torch.zeros((len(l), nc + 5), device=x.device)v[:, :4] = l[:, 1:5]  # boxv[:, 4] = 1.0  # confv[range(len(l)), l[:, 0].long() + 5] = 1.0  # clsx = torch.cat((x, v), 0)# If none remain process next imageif not x.shape[0]:continue# Compute confif nc == 1:x[:, 5:] = x[:, 4:5] # for models with one class, cls_loss is 0 and cls_conf is always 0.5,# so there is no need to multiplicate.else:x[:, 5:] *= x[:, 4:5]  # conf = obj_conf * cls_conf# Box (center x, center y, width, height) to (x1, y1, x2, y2)#这里LFM,SFM的概率就远高于BPSK,Frank了box = xywh2xyxy(x[:, :4])# Detections matrix nx6 (xyxy, conf, cls)if multi_label:i, j = (x[:, 5:] > conf_thres).nonzero(as_tuple=False).Tx = torch.cat((box[i], x[i, j + 5, None], j[:, None].float()), 1)else:  # best class onlyconf, j = x[:, 5:].max(1, keepdim=True)x = torch.cat((box, conf, j.float()), 1)[conf.view(-1) > conf_thres]# Filter by classif classes is not None:x = x[(x[:, 5:6] == torch.tensor(classes, device=x.device)).any(1)]# Apply finite constraint# if not torch.isfinite(x).all():#     x = x[torch.isfinite(x).all(1)]# Check shape#这里只剩下LFM,SFM类了n = x.shape[0]  # number of boxesif not n:  # no boxescontinueelif n > max_nms:  # excess boxesx = x[x[:, 4].argsort(descending=True)[:max_nms]]  # sort by confidence# Batched NMSc = x[:, 5:6] * (0 if agnostic else max_wh)  # classesboxes, scores = x[:, :4] + c, x[:, 4]  # boxes (offset by class), scoresi = torchvision.ops.nms(boxes, scores, iou_thres)  # NMSif i.shape[0] > max_det:  # limit detectionsi = i[:max_det]if merge and (1 < n < 3E3):  # Merge NMS (boxes merged using weighted mean)# update boxes as boxes(i,4) = weights(i,n) * boxes(n,4)iou = box_iou(boxes[i], boxes) > iou_thres  # iou matrixweights = iou * scores[None]  # box weightsx[i, :4] = torch.mm(weights, x[:, :4]).float() / weights.sum(1, keepdim=True)  # merged boxesif redundant:i = i[iou.sum(1) > 1]  # require redundancyoutput[xi] = x[i]if (time.time() - t) > time_limit:print(f'WARNING: NMS time limit {time_limit}s exceeded')break  # time limit exceededreturn output

 有一段很关键的话:

i = torchvision.ops.nms(boxes, scores, iou_thres)  # NMS

如果我们只在竖直方向进行非极大值抑制的话,把boxes中x1,x2分别设置为图片最左边和最右边就好了,这样计算的IOU是不考虑水平方向的。

注意,下面限制NMS的句子加的位置不对:

 # Batched NMS
c = x[:, 5:6] * (0 if agnostic else max_wh)  # classes
boxes, scores = x[:, :4] + c, x[:, 4]  # boxes (offset by class), scoresboxes[:,0]=0
boxes[:, 2] = 450i = torchvision.ops.nms(boxes, scores, iou_thres)  # NMS box的数值和x是不一致的

必须加在+c前

+c是使得NMS可以考虑不同类别

正常的boxes:

+c以后再限制NMS的boxes:

最终的结果非常完美了:

我的另一篇博客记录了早期的实验现象:

YOLOv7训练时4个类别只出2个类别


二、检测效果深度优化

2.1 更大比值的anchor

即便用更大的宽高比样本,回归效果依然不错(但是置信度略低了,还得继续优化anchors):

上面这种框只框主瓣,下面是它的标签 

1 0.500 0.201 1.000 0.037
2 0.500 0.402 1.000 0.150
3 0.500 0.604 1.000 0.045
0 0.500 0.804 1.000 0.217 

长宽比分别是:1/0.037=27.03,  1/0.150=6.67,  1/0.045=22.22,  1/0.217=4.61 

这样的话,每个尺度特征图对应的anchor宽高比最好在27-5

我新设计的anchors:

# anchors
anchors:- [20,4, 20,3, 20,2]  # P3/8 640->80  416->52- [80,16, 80,8, 80,2]  # P4/16 640->40 416->26- [300,60, 300,20, 300,11]  # P5/32 640->20 416->13

效果: 

感觉置信度还是低

2.2 带更多先验信息的anchor

anchor加入更多先验信息,已知款的宽度在416:

anchors:- [20,4, 20,3, 20,2]  # P3/8 640->80  416->52- [80,16, 80,8, 80,2]  # P4/16 640->40 416->26- [410,82, 410,15, 410,5]  # P5/32 640->20 416->13

 效果: 

2.3 限制三种尺度anchor的宽度

试试我的另一种anchor方案:

anchors:- [410,4, 410,3, 410,2]  # P3/8 640->80  416->52- [410,32, 410,16, 410,8]  # P4/16 640->40 416->26- [410,85, 410,60, 410,45]  # P5/32 640->20 416->13

效果: 

感觉....还是老样子

2.4 限制三种尺度anchor的宽度

试试640*640的基础上用大比例anchor

parser.add_argument('--img-size', nargs='+', type=int, default=[640, 640], help='[train, test] image sizes')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/88423.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/88423.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenStack 鉴权服务介绍.md

引言 OpenStack是一个开源的云计算管理平台&#xff0c;其中的Keystone组件承担了身份认证和授权的关键任务。Keystone的主要功能包括管理用户及其权限、维护OpenStack Services的Endpoint&#xff0c;以及实现认证&#xff08;Authentication&#xff09;和鉴权&#xff08;Au…

Linux_3:进程间通信

IPC1.什么是IPC&#xff1f;Inter Process Communication2.进程间通信常用的几种方式1&#xff0c;管道通信&#xff1a;有名管道&#xff0c;无名管道2&#xff0c;信号- 系统开销小3&#xff0c;消息队列-内核的链表4&#xff0c;信号量-计数器5&#xff0c;共享内存6&#x…

【Springboot】Bean解释

在 Spring Boot 中&#xff0c;Bean 就像是你餐厅里的一名员工。比如&#xff0c;你有一名服务员&#xff08;Service&#xff09;、一名厨师&#xff08;Chef&#xff09;和一名收银员&#xff08;Cashier&#xff09;。这些员工都是餐厅正常运转所必需的&#xff0c;他们各自…

axios的post请求,数据为什么要用qs处理?什么时候不用?

为什么使用 qs 处理 POST 数据axios 的 POST 请求默认将 JavaScript 对象序列化为 JSON 格式&#xff08;Content-Type: application/json&#xff09;。但某些后端接口&#xff08;尤其是传统表单提交&#xff09;要求数据以 application/x-www-form-urlencoded 格式传输&…

【unitrix】 4.21 类型级二进制数基本结构体(types.rs)

一、源码 这段代码定义了一个类型级数值系统的 Rust 实现&#xff0c;主要用于在编译时表示和操作各种数值类型。 use crate::sealed::Sealed; use crate::number::{NonZero, TypedInt, Unsigned, Primitive}; // // 特殊浮点值枚举 ///// 特殊浮点值&#xff08;NaN/∞&#x…

UI前端与数字孪生结合实践案例:智慧零售的库存管理优化系统

hello宝子们...我们是艾斯视觉擅长ui设计和前端数字孪生、大数据、三维建模、三维动画10年经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言&#xff1a;数字孪生重构零售库存的 “人 - 货 - 场” 协同在零售行业利润率持续承压的背景…

【Freertos实战】零基础制作基于stm32的物联网温湿度检测(教程非常简易)持续更新中.........

本次记录采用Freertos的第二个DIY作品&#xff0c;基于Onenet的物联网温湿度检测系统&#xff0c;此次代码依然是全部开源。通过网盘分享的文件&#xff1a;物联网温湿度检测.rar 链接: https://pan.baidu.com/s/1uj9UURVtGE6ZB6OsL2W8lw?pwdqm2e 提取码: qm2e 大家也可以看看…

Matplotlib-多图布局与网格显示

Matplotlib-多图布局与网格显示一、多图布局的核心组件二、基础布局&#xff1a;plt.subplots()快速创建网格1. 均等分网格2. 不等分网格&#xff08;指定比例&#xff09;三、进阶布局&#xff1a;GridSpec实现复杂嵌套1. 跨行列布局2. 嵌套GridSpec四、实用技巧&#xff1a;布…

GitHub上优秀的开源播放器项目介绍及优劣对比

ExoPlayer 项目地址:https://github.com/google/ExoPlayer 特点: 由Google开发,支持广泛的视频格式和流媒体传输协议,如DASH、HLS、SmoothStreaming。 提供灵活的媒体源架构和高级特性,如动态自适应流播放。 开发者可以轻松扩展和定制播放器组件,适应特定需求。 优点: 功…

react打包发到线上报错Minified React error #130

开发过程中遇到一个问题&#xff0c;记录一下 本地打包发布正常&#xff0c;发测试环境正常&#xff0c;可是通过Jenkins打包发布线上报错 报错信息 index-67fbbd81.js:39 Error: Minified React error #130; visit https://reactjs.org/docs/error-decoder.html?invariant130…

微服务项目远程调用时的负载均衡是如何实现的?

负载均衡概述 负载均衡是微服务架构中的核心组件&#xff0c;用于将请求合理分配到多个服务实例上&#xff0c;提高系统的可用性和性能。负载均衡的分类 负载均衡大致可以分为两类 1. 服务端负载均衡 实现位置&#xff1a;独立部署的负载均衡服务器&#xff08;位于客户端和服务…

【中文核心期刊推荐】中国农业科技导报

《中国农业科技导报》是中国科技核心期刊&#xff0c;也是北京大学图书馆“中文核心期刊要目总览”收录的期刊。它是由中国农村技术开发中心主办&#xff0c;全面为科教兴农服务的综合性农业学术期刊。&#xfeff;《中国农业科技导报》是中国农业科学院生物技术研究所承办的&a…

php 如何通过mysqli操作数据库?

在PHP中&#xff0c;mysqli&#xff08;MySQL Improved Extension&#xff09;是操作MySQL数据库的扩展库&#xff0c;提供了面向对象和过程式两种风格。以下是mysqli的基本操作方法&#xff1a; 1. 连接数据库 面向对象风格 $mysqli new mysqli(localhost, username, passwor…

c/c++拷贝函数

memcpy()函数概要原型void * memcpy ( void * dest, const void * src, size_t num );功能memcpy()会复制 src 所指的内存内容的前 num 个字节到 dest所指的内存地址上&#xff08;memcpy()并不关心被复制的数据类型&#xff0c;只是逐字节地进行复制&#xff0c;这给函数的使用…

HTTP核心基础详解(附实战要点)

目录 一图胜千言&#xff1a;HTTP核心机制图解​编辑 一、HTTP本质&#xff1a;通信的桥梁 二、五大核心特性解析 三、HTTP头部&#xff1a;隐藏的控制中心 四、连接管理&#xff1a;性能关键点 开发者必知实践技巧 一图胜千言&#xff1a;HTTP核心机制图解 一、HTTP本质…

华为静态路由配置

问题描述&#xff1a;针对两台笔记本和两个路由器在不同的网段场景中&#xff0c;对两个路由器进行静态路由配置。下面以如下场景为例&#xff0c;介绍详细配置过程。配置步骤&#xff1a; 1、对每个路由器的接口下配置IP地址 [huawei]interface gx/x/x [huawei-interface]ip a…

闲庭信步使用图像验证平台加速FPGA的开发:第八课——图像数据的行缓存

&#xff08;本系列只需要modelsim即可完成数字图像的处理&#xff0c;每个工程都搭建了全自动化的仿真环境&#xff0c;只需要双击文件就可以完成整个的仿真&#xff0c;大大降低了初学者的门槛&#xff01;&#xff01;&#xff01;&#xff01;如需要该系列的工程文件请关注…

经典排序算法

文章目录前言1. 排序的基本概念1.1 排序是什么&#xff1f;1.2 常见的排序算法概览2. 常见排序算法的实现2.1 插入排序 (Insertion Sort)2.1.1 基本思想2.1.2 直接插入排序2.1.3 希尔排序 (Shell Sort)2.2 选择排序 (Selection Sort)2.2.1 直接选择排序2.2.2 堆排序 (Heap Sort…

RabbitMQ 消息队列:从入门到Spring Boot实战

RabbitMQ 作为一款开源的、基于 AMQP&#xff08;Advanced Message Queuing Protocol&#xff09;协议实现的消息代理&#xff0c;凭借其强大的功能、灵活的路由机制以及出色的性能&#xff0c;在业界得到了广泛的应用。无论是处理高并发订单、异步通知、日志收集还是系统解耦&…

代账行业数字化破局:从“知道”到“做到”,三步走稳赢!

认知&#xff01;降本&#xff01;增收&#xff01;数字化&#xff01;——这不仅是口号&#xff0c;更是代账行业在激烈竞争和时代变化中生存发展的关键。很多代账同行其实都明白趋势&#xff0c;也知道大概该怎么做。但问题卡在第一步&#xff1a;不知道怎么开始&#xff0c;…