[AI]从零开始的YOLO数据集增强教程

一、前言

        不知道大家在训练YOLO时有没有遇到过这样的情况,明明数据集已经准备了很多了,但是YOLO还是不认识某个物品,或者置信度低。那么有没有办法让我们不制作新数据集的情况下让代码帮我们生成新的数据集来训练模型呢?当然有,并且现在最主流的办法就是将原本的图像进行翻转,改变亮度,以及添加噪声等。经过了这些步骤,就增加了我们数据集的多样性,相当于增加了YOLO的样本数量,这样,YOLO模型就能够认识更多样的对象,从而实现数据集增强。那么本次教程,就来教大家如何使用简单的处理代码实现对YOLO数据集的增强!

二、需要准备什么?

        既然需要对YOLO的训练数据集进行增强,这里需要大已经安装好YOLO环境并且对YOLO的训练非常熟悉。如果你还没有安装好YOLO的推理环境可以直接看下面的教程:

YOLO环境搭建:[AI]小白向的YOLO安装教程-CSDN博客

如果你还不会训练YOLO模型可以看下面的教程:

YOLO模型训练:[AI]YOLO如何训练对象检测模型(详细)_yolo模型-CSDN博客

当部署好YOLO环境并且对YOLO推理非常熟悉以后就可以进行下面的步骤了。

三、YOLO数据集增强

        这里我们需要对数据集进行增强,首先我们需要一个已经制作好的数据集,这里数据集的数量不用太多,我这里就准备了200张已经框好的数据集,用于识别花卉的碳黑病:

准备好对应的数据集,我们创新一个名为“Augment.py”的文件,然后把下方的代码粘贴进这个py文件中,如图所示:

# -*- coding: utf-8 -*-import torch
from PIL import Image
from PIL import ImageDraw
from PIL import ImageFile
ImageFile.LOAD_TRUNCATED_IMAGES = True
from torchvision import transforms
import numpy as np
import matplotlib.pyplot as plt
import os
import random
random.seed(0)class DataAugmentationOnDetection:def __init__(self):super(DataAugmentationOnDetection, self).__init__()# 以下的几个参数类型中,image的类型全部如下类型# 参数类型: image:Image.open(path)def resize_keep_ratio(self, image, boxes, target_size):"""参数类型: image:Image.open(path), boxes:Tensor, target_size:int功能:将图像缩放到size尺寸,调整相应的boxes,同时保持长宽比(最长的边是target size"""old_size = image.size[0:2]  # 原始图像大小# 取最小的缩放比例ratio = min(float(target_size) / (old_size[i]) for i in range(len(old_size)))  # 计算原始图像宽高与目标图像大小的比例,并取其中的较小值new_size = tuple([int(i * ratio) for i in old_size])  # 根据上边求得的比例计算在保持比例前提下得到的图像大小# boxes 不用变化,因为是等比例变化return image.resize(new_size, Image.BILINEAR), boxesdef resizeDown_keep_ratio(self, image, boxes, target_size):""" 与上面的函数功能类似,但它只降低图片的尺寸,不会扩大图片尺寸"""old_size = image.size[0:2]  # 原始图像大小# 取最小的缩放比例ratio = min(float(target_size) / (old_size[i]) for i in range(len(old_size)))  # 计算原始图像宽高与目标图像大小的比例,并取其中的较小值ratio = min(ratio, 1)new_size = tuple([int(i * ratio) for i in old_size])  # 根据上边求得的比例计算在保持比例前提下得到的图像大小# boxes 不用变化,因为是等比例变化return image.resize(new_size, Image.BILINEAR), boxesdef resize(self, img, boxes, size):# ---------------------------------------------------------# 类型为 img=Image.open(path),boxes:Tensor,size:int# 功能为:将图像长和宽缩放到指定值size,并且相应调整boxes# ---------------------------------------------------------return img.resize((size, size), Image.BILINEAR), boxesdef random_flip_horizon(self, img, boxes, h_rate=1):# -------------------------------------# 随机水平翻转# -------------------------------------if np.random.random() < h_rate:transform = transforms.RandomHorizontalFlip(p=1)img = transform(img)if len(boxes) > 0:x = 1 - boxes[:, 1]boxes[:, 1] = xreturn img, boxesdef random_flip_vertical(self, img, boxes, v_rate=1):# 随机垂直翻转if np.random.random() < v_rate:transform = transforms.RandomVerticalFlip(p=1)img = transform(img)if len(boxes) > 0:y = 1 - boxes[:, 2]boxes[:, 2] = yreturn img, boxesdef center_crop(self, img, boxes, target_size=None):# -------------------------------------# 中心裁剪 ,裁剪成 (size, size) 的正方形, 仅限图形,w,h# 这里用比例是很难算的,转成x1,y1, x2, y2格式来计算# -------------------------------------w, h = img.sizesize = min(w, h)if len(boxes) > 0:# 转换到xyxy格式label = boxes[:, 0].reshape([-1, 1])x_, y_, w_, h_ = boxes[:, 1], boxes[:, 2], boxes[:, 3], boxes[:, 4]x1 = (w * x_ - 0.5 * w * w_).reshape([-1, 1])y1 = (h * y_ - 0.5 * h * h_).reshape([-1, 1])x2 = (w * x_ + 0.5 * w * w_).reshape([-1, 1])y2 = (h * y_ + 0.5 * h * h_).reshape([-1, 1])boxes_xyxy = torch.cat([x1, y1, x2, y2], dim=1)# 边框转换if w > h:boxes_xyxy[:, [0, 2]] = boxes_xyxy[:, [0, 2]] - (w - h) / 2else:boxes_xyxy[:, [1, 3]] = boxes_xyxy[:, [1, 3]] - (h - w) / 2in_boundary = [i for i in range(boxes_xyxy.shape[0])]for i in range(boxes_xyxy.shape[0]):# 判断x是否超出界限if (boxes_xyxy[i, 0] < 0 and boxes_xyxy[i, 2] < 0) or (boxes_xyxy[i, 0] > size and boxes_xyxy[i, 2] > size):in_boundary.remove(i)# 判断y是否超出界限elif (boxes_xyxy[i, 1] < 0 and boxes_xyxy[i, 3] < 0) or (boxes_xyxy[i, 1] > size and boxes_xyxy[i, 3] > size):in_boundary.append(i)boxes_xyxy = boxes_xyxy[in_boundary]boxes = boxes_xyxy.clamp(min=0, max=size).reshape([-1, 4])  # 压缩到固定范围label = label[in_boundary]# 转换到YOLO格式x1, y1, x2, y2 = boxes[:, 0], boxes[:, 1], boxes[:, 2], boxes[:, 3]xc = ((x1 + x2) / (2 * size)).reshape([-1, 1])yc = ((y1 + y2) / (2 * size)).reshape([-1, 1])wc = ((x2 - x1) / size).reshape([-1, 1])hc = ((y2 - y1) / size).reshape([-1, 1])boxes = torch.cat([xc, yc, wc, hc], dim=1)# 图像转换transform = transforms.CenterCrop(size)img = transform(img)if target_size:img = img.resize((target_size, target_size), Image.BILINEAR)if len(boxes) > 0:return img, torch.cat([label.reshape([-1, 1]), boxes], dim=1)else:return img, boxes# ------------------------------------------------------# 以下img皆为Tensor类型# ------------------------------------------------------def random_bright(self, img, u=120, p=1):# -------------------------------------# 随机亮度变换# -------------------------------------if np.random.random() < p:alpha=np.random.uniform(-u, u)/255img += alphaimg=img.clamp(min=0.0, max=1.0)return imgdef random_contrast(self, img, lower=0.5, upper=1.5, p=1):# -------------------------------------# 随机增强对比度# -------------------------------------if np.random.random() < p:alpha=np.random.uniform(lower, upper)img*=alphaimg=img.clamp(min=0, max=1.0)return imgdef random_saturation(self, img,lower=0.5, upper=1.5, p=1):# 随机饱和度变换,针对彩色三通道图像,中间通道乘以一个值if np.random.random() < p:alpha=np.random.uniform(lower, upper)img[1]=img[1]*alphaimg[1]=img[1].clamp(min=0,max=1.0)return imgdef add_gasuss_noise(self, img, mean=0, std=0.1):noise=torch.normal(mean,std,img.shape)img+=noiseimg=img.clamp(min=0, max=1.0)return imgdef add_salt_noise(self, img):noise=torch.rand(img.shape)alpha=np.random.random()/5 + 0.7img[noise[:,:,:]>alpha]=1.0return imgdef add_pepper_noise(self, img):noise=torch.rand(img.shape)alpha=np.random.random()/5 + 0.7img[noise[:, :, :]>alpha]=0return imgdef plot_pics(img, boxes):# 显示图像和候选框,img是Image.Open()类型, boxes是Tensor类型plt.imshow(img)label_colors = [(213, 110, 89)]w, h = img.sizefor i in range(boxes.shape[0]):box = boxes[i, 1:]xc, yc, wc, hc = boxx = w * xc - 0.5 * w * wcy = h * yc - 0.5 * h * hcbox_w, box_h = w * wc, h * hcplt.gca().add_patch(plt.Rectangle(xy=(x, y), width=box_w, height=box_h,edgecolor=[c / 255 for c in label_colors[0]],fill=False, linewidth=2))plt.show()def get_image_list(image_path):# 根据图片文件,查找所有图片并返回列表files_list = []for root, sub_dirs, files in os.walk(image_path):for special_file in files:special_file = special_file[0: len(special_file)]files_list.append(special_file)return files_listdef get_label_file(label_path, image_name):# 根据图片信息,查找对应的labelfname = os.path.join(label_path, image_name[0: len(image_name)-4]+".txt")data2 = []if not os.path.exists(fname):return data2if os.path.getsize(fname) == 0:return data2else:with open(fname, 'r', encoding='utf-8') as infile:# 读取并转换标签for line in infile:data_line = line.strip("\n").split()data2.append([float(i) for i in data_line])return data2def save_Yolo(img, boxes, save_path, prefix, image_name):# img: 需要时Image类型的数据, prefix 前缀# 将结果保存到save path指示的路径中if not os.path.exists(save_path) or \not os.path.exists(os.path.join(save_path, "images")):os.makedirs(os.path.join(save_path, "images"))os.makedirs(os.path.join(save_path, "labels"))try:img.save(os.path.join(save_path, "images", prefix + image_name))with open(os.path.join(save_path, "labels", prefix + image_name[0:len(image_name)-4] + ".txt"), 'w', encoding="utf-8") as f:if len(boxes) > 0:  # 判断是否为空# 写入新的label到文件中for data in boxes:str_in = ""for i, a in enumerate(data):if i == 0:str_in += str(int(a))else:str_in += " " + str(float(a))f.write(str_in + '\n')except:print("ERROR: ", image_name, " is bad.")def runAugumentation(image_path, label_path, save_path):image_list = get_image_list(image_path)for image_name in image_list:print("dealing: " + image_name)img = Image.open(os.path.join(image_path, image_name))boxes = get_label_file(label_path, image_name)boxes = torch.tensor(boxes)# 下面是执行的数据增强功能,可自行选择# Image类型的参数DAD = DataAugmentationOnDetection()""" 尺寸变换   """# 缩小尺寸# t_img, t_boxes = DAD.resizeDown_keep_ratio(img, boxes, 1024)# save_Yolo(t_img, boxes, save_path, prefix="rs_", image_name=image_name)# 水平旋转t_img, t_boxes = DAD.random_flip_horizon(img, boxes.clone())save_Yolo(t_img, t_boxes, save_path, prefix="fh_", image_name=image_name)# 竖直旋转t_img, t_boxes = DAD.random_flip_vertical(img, boxes.clone())save_Yolo(t_img, t_boxes, save_path, prefix="fv_", image_name=image_name)# center_cropt_img, t_boxes = DAD.center_crop(img, boxes.clone(), 1024)save_Yolo(t_img, t_boxes, save_path, prefix="cc_", image_name=image_name)""" 图像变换,用tensor类型"""to_tensor = transforms.ToTensor()to_image = transforms.ToPILImage()img = to_tensor(img)# random_brightt_img, t_boxes = DAD.random_bright(img.clone()), boxessave_Yolo(to_image(t_img), boxes, save_path, prefix="rb_", image_name=image_name)# random_contrast 对比度变化t_img, t_boxes = DAD.random_contrast(img.clone()), boxessave_Yolo(to_image(t_img), boxes, save_path, prefix="rc_", image_name=image_name)# random_saturation 饱和度变化t_img, t_boxes = DAD.random_saturation(img.clone()), boxessave_Yolo(to_image(t_img), boxes, save_path, prefix="rs_", image_name=image_name)# 高斯噪声t_img, t_boxes = DAD.add_gasuss_noise(img.clone()), boxessave_Yolo(to_image(t_img), boxes, save_path, prefix="gn_", image_name=image_name)# add_salt_noiset_img, t_boxes = DAD.add_salt_noise(img.clone()), boxessave_Yolo(to_image(t_img), boxes, save_path, prefix="sn_", image_name=image_name)# add_pepper_noiset_img, t_boxes = DAD.add_pepper_noise(img.clone()), boxessave_Yolo(to_image(t_img), boxes, save_path, prefix="pn_", image_name=image_name)print("end:     " + image_name)if __name__ == '__main__':# 图像和标签文件夹image_path = r"./train/images"label_path = r"./train/labels"save_path = r"./save"    # 结果保存位置路径,可以是一个不存在的文件夹# 运行runAugumentation(image_path, label_path, save_path)

粘贴完成以后,如图所示:

在上方的代码中,我们找到“if __name__ == '__main__':”的位置,在使用代码前,需要对这里的路径进行一些简单的修改。来到上述位置后,我们可以看到如图所示的代码:

这里在配置之前有一个前提,那就是我们的数据集已经制作好了。我的数据集结构如图所示:

如上图可以看到,我们的“Augment.py”与train目录在同一级,在train目录中有images目录与labels目录:

这就是非常常见的YOLO目录结构,这里就不多说了。

根据代码中的变量,我们可知,第一个“image_path”需要传入我们的数据集的图片路径,后面的“label_path”需要传入我们数据集中标签的路径。最后一个“save_path”就是我们保存新生成的数据集与标签的路径。修改好上面的内容以后,我们直接保存即可。我们进入YOLO的虚拟环境,然后直接运行这个py文件即可:

python .\Augment.py

运行以后,我们就可以看到代码开始帮我们处理数据集了:

在我们设置的保存路径中,代码已经保存了帮我们生成的数据集:

等程序执行完成以后,我们可以看到对应的文件夹中有1800个文件,相当于现在我们使用代码增强出来的数据集是我们原本数据集的9倍。这些数据集已经涵盖了大部分的情况:

在labels文件夹中也生成了对应的标签:

至此,我们使用YOLO增强数据集就完成了。

四、结语

        在本次教程中,我们通过对YOLO数据集的增强,实现了数据集多样性的扩展,极大的减少了人工框选的成本以及样本拍摄的数量,那么最后,感谢大家的观看!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85100.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85100.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件工程的相关名词解释

目录 1. 软件生命周期2.开源软件3.软件工程4.模块化原则5.信息隐藏原则6.双向追踪7.原型8.软件需求9.需求工程10.边界类11.软件实现&#xff08;的任务&#xff09;12.软件缺陷13.回归测试14.软件β版15.软件部署16.纠正性维护17.改善性维护18.适应性维护19.软件逻辑老化 1. 软…

2025.06.17【BUG】|多样品VCF文件合并技巧及注意事项(以bcftools为例)

文章目录 [toc]一、合并VCF的常用命令1.1 合并多个bgzip压缩的VCF文件1.2 使用文件列表合并 二、合并前的准备与注意事项2.1 文件格式要求2.2 样本名唯一性2.3 检查文件模式匹配 三、常见报错与解决方法3.1 报错&#xff1a;Error: Duplicate sample names (sample1), use --fo…

包含30个APP客户端UI界面的psd适用于旅游酒店项目

包含30个APP客户端UI界面的psd适用于旅游酒店项目 此资源包含30个完全可编辑的psd界面组成。内容包括欢迎页、登录、注册、首页、搜索、侧边菜单、用户中心、个人介绍、用户空间、产品详细信息、酒店预定、天气情况等各种常用界面&#xff0c;您可以将其用于旅游酒店类的APP应用…

ArrayList源码分析

目录 ArrayList简介 ArrayList和vector的区别&#xff08;了解即可&#xff09; ArrayList添加null值 ArrayList和LinkedList区别 ArrayList核心源码解读 ArrayList扩容机制分析 一步一分析ArrayList扩容机制 hugeCapacity()方法 System.arraycopy() Arrays.copyOf()方法 …

NX二次开发C#---通过Face找Edges,再通过Edges找Curve

文章介绍了一个名为AskFaceEdge的静态方法&#xff0c;用于处理3D建模中的边缘曲线生成。该方法通过NX Open API调用&#xff0c;主要功能是获取指定面的边缘并生成相应的曲线。方法接收两个参数&#xff1a;faceTag&#xff08;面标签&#xff09;和curveLoop&#xff08;曲线…

设计模式笔记_创建型_工厂模式

1. 工厂模式简介 工厂模式是一种创建型设计模式&#xff0c;主要用于创建对象实例。 它通过定义一个接口或抽象类来创建对象&#xff0c;而不是直接实例化具体类&#xff0c;从而将对象的创建过程与使用过程分离。 工厂模式通常分为两种类型&#xff1a; 简单工厂模式&#x…

2025.6.16总结

工作&#xff1a;今天闭环了个遗留问题。在做专项评估时写得太简单&#xff0c;这让测试经理质疑你的测试质量。如果换位思考&#xff0c;你是测试经理&#xff0c;你该怎么去把握风险和保证产品的质量&#xff0c;就知道写得太简单&#xff0c;没有可信度。 找开发看了下后台…

记录:安装VMware、Ubuntu、ROS2

安装了VMware&#xff0c;就能够在Windows系统装安装Ubuntu&#xff0c;使用Linux系统。安装了Ubuntu&#xff0c;就能在里面安装ROS2&#xff0c;之后写代码控制机器人儿。 安装VMware 我安装的是16 pro【具体是vmware16.2.4】&#xff0c;下载网站&#xff1a;VMware Works…

将后端数据转换为docx文件

使用docx npm install docx 按照注释处理数据并转换为对应的bolb数据流 <template><Button type"primary" click"handleDocxCreate">{{buttonTitle || "报告生成"}}</Button> </template><script> import {Doc…

数据结构排序算法合集

快排 private static void quickSort(int[] ret) { quick(ret,0,ret.length-1); } private static void quick(int[] ret, int left, int right) { if(left>right) 记一下这里是大于等于 return; int pivot partition(ret,left,right); quick(ret…

【算法笔记】红黑树插入操作

红黑树插入与调整详解 一、红黑树的五大性质 红黑树是一种自平衡的二叉搜索树&#xff08;BST&#xff09;&#xff0c;其核心特性如下&#xff1a; 颜色属性&#xff1a;每个节点非红即黑根属性&#xff1a;根节点必须为黑色叶子属性&#xff1a;所有的 NIL 叶子节点都是黑…

认知计算革命:从算法创新到产业落地的AI专业核心应用全景

​​一、自动化机器学习&#xff08;AutoML&#xff09;​​ ​​技术机理与产业实践深度剖析​​ ​​神经网络架构搜索&#xff08;NAS&#xff09;​​ 强化学习方案&#xff1a;Google Brain的NASNet采用策略梯度优化卷积单元进化算法方案&#xff1a;DeepMind的AmeobaNe…

篇章十 论坛系统——业务开发——板块和帖子

目录 1.板块 1.1 思路 1.2 实现逻辑 1.3 参数要求 1.4 实现步骤 1.Mapper.xml 2.Mapper.java 3.Service接口 4.Service实现 5.单元测试 6.Controller 7.测试API 8.前后端交互 2.帖子 1.1思路​编辑 1.2 参数要求 ​编辑 1.3 实现步骤 1.Mapper.xml 2.Mapper…

React Native 上线前的准备与企业实战经验总结

上线前的准备与企业实战经验总结 关键要点 热更新简化部署&#xff1a;CodePush 和 Expo OTA 允许快速推送 JavaScript 和资源更新&#xff0c;绕过应用商店审核&#xff0c;适合修复 Bug 或小规模功能迭代。监控与分析提升质量&#xff1a;Sentry 提供实时错误跟踪&#xff…

【AI时代速通QT】第一节:C++ Qt 简介与环境安装

目录 前言 一、为什么是 Qt&#xff1f;—— C 开发者的必备技能 二、Qt 的核心魅力&#xff1a;不止于跨平台 2.1 优雅之一&#xff1a;代码隔离&#xff0c;清晰明了 2.2 优雅之二&#xff1a;信号与槽&#xff08;Signal & Slot&#xff09;机制 2.3 优雅之三&…

pandas学习笔记

前言 总结才是知识&#xff0c;作者习惯不好&#xff0c;不会总结&#xff0c;导致函数一旦不使用就会忘记怎么使用&#xff0c;特此写了本文&#xff0c;用于给自己一个复习的资料. 提示&#xff1a;如果你是小白&#xff0c;每个代码请自己敲打。 一 pandas的介绍 Pandas is…

算法题(力扣每日一题)—改变一个整数能得到的最大差值

给你一个整数 num 。你可以对它进行以下步骤共计 两次&#xff1a; 选择一个数字 x (0 < x < 9). 选择另一个数字 y (0 < y < 9) 。 数字 y 可以等于 x 。 将 num中所有出现 x 的数位都用 y 替换。 令两次对 num 的操作得到的结果分别为 a 和 b 。 请你返回 a 和 b…

Kubernetes笔记

1.简介 Kubernetes的本质是一组服务器集群&#xff0c;它可以在集群的每个节点上运行特定的程序&#xff0c;来对节点中的容器进行管理。目的是实现资源管理的自动化&#xff0c;主要提供了如下的主要功能&#xff1a; 自我修复&#xff1a;一旦某一个容器崩溃&#xff0c;能够…

Flutter——数据库Drift开发详细教程(八)

目录 自定义 SQL 类型定义类型使用自定义类型在 Dart 中在 SQL 中 方言意识支持的 SQLite 扩展json1fts5地缘垄断 自定义 SQL 类型 Drift 的核心库主要以 SQLite3 为目标平台编写。这体现在Drift 开箱即用的SQL 类型上——这些类型由 SQLite3 支持&#xff0c;并新增了一些由 …

安卓远控工具 CRaxsRat v7.6 安装与使用教程(仅供合法测试学习)

在当今的信息安全领域&#xff0c;移动设备已成为重点关注对象。本文将介绍一款用于远程管理与教学研究的工具 —— CRaxsRat v7.6&#xff0c;并详细讲解其安装与使用流程。本教程仅供网络安全爱好者在合法授权环境下学习使用&#xff0c;严禁任何非法用途。 &#x1f50d; 一…