动手学深度学习13.6. 目标检测数据集-笔记练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。

本节课程地址:数据集_哔哩哔哩_bilibili

本节教材地址:13.6. 目标检测数据集 — 动手学深度学习 2.0.0 documentation

本节开源代码:…>d2l-zh>pytorch>chapter_optimization>object-detection-dataset.ipynb


目标检测数据集

目标检测领域没有像MNIST和Fashion-MNIST那样的小数据集。
为了快速测试目标检测模型,[我们收集并标记了一个小型数据集]。
首先,我们拍摄了一组香蕉的照片,并生成了1000张不同角度和大小的香蕉图像。
然后,我们在一些背景图片的随机位置上放一张香蕉的图像。
最后,我们在图片上为这些香蕉标记了边界框。

[下载数据集]

包含所有图像和CSV标签文件的香蕉检测数据集可以直接从互联网下载。

%matplotlib inline
import os
import pandas as pd
import torch
import torchvision
from d2l import torch as d2l
#@save
d2l.DATA_HUB['banana-detection'] = (d2l.DATA_URL + 'banana-detection.zip','5de26c8fce5ccdea9f91267273464dc968d20d72')

读取数据集

通过read_data_bananas函数,我们[读取香蕉检测数据集]。
该数据集包括一个的CSV文件,内含目标类别标签和位于左上角和右下角的真实边界框坐标。

#@save
def read_data_bananas(is_train=True):"""读取香蕉检测数据集中的图像和标签"""data_dir = d2l.download_extract('banana-detection')csv_fname = os.path.join(data_dir, 'bananas_train' if is_trainelse 'bananas_val', 'label.csv')csv_data = pd.read_csv(csv_fname)csv_data = csv_data.set_index('img_name')images, targets = [], []for img_name, target in csv_data.iterrows():images.append(torchvision.io.read_image(os.path.join(data_dir, 'bananas_train' if is_train else'bananas_val', 'images', f'{img_name}')))# 这里的target包含(类别,左上角x,左上角y,右下角x,右下角y),# 其中所有图像都具有相同的香蕉类(索引为0)targets.append(list(target))# /256将像素坐标从[0,256]归一化到[0,1]return images, torch.tensor(targets).unsqueeze(1) / 256

通过使用read_data_bananas函数读取图像和标签,以下BananasDataset类别将允许我们[创建一个自定义Dataset实例]来加载香蕉检测数据集。

#@save
class BananasDataset(torch.utils.data.Dataset):"""一个用于加载香蕉检测数据集的自定义数据集"""def __init__(self, is_train):self.features, self.labels = read_data_bananas(is_train)print('read ' + str(len(self.features)) + (f' training examples' ifis_train else f' validation examples'))def __getitem__(self, idx):return (self.features[idx].float(), self.labels[idx])def __len__(self):return len(self.features)

最后,我们定义load_data_bananas函数,来[为训练集和测试集返回两个数据加载器实例]。对于测试集,无须按随机顺序读取它。

#@save
def load_data_bananas(batch_size):"""加载香蕉检测数据集"""train_iter = torch.utils.data.DataLoader(BananasDataset(is_train=True),batch_size, shuffle=True)val_iter = torch.utils.data.DataLoader(BananasDataset(is_train=False),batch_size)return train_iter, val_iter

让我们[读取一个小批量,并打印其中的图像和标签的形状]。
图像的小批量的形状为(批量大小、通道数、高度、宽度),看起来很眼熟:它与我们之前图像分类任务中的相同。
标签的小批量的形状为(批量大小,mmm,5),其中mmm是数据集的任何图像中边界框可能出现的最大数量。

小批量计算虽然高效,但它要求每张图像含有相同数量的边界框,以便放在同一个批量中。
通常来说,图像可能拥有不同数量个边界框;因此,在达到mmm之前,边界框少于mmm的图像将被非法边界框填充。
这样,每个边界框的标签将被长度为5的数组表示。
数组中的第一个元素是边界框中对象的类别,其中-1表示用于填充的非法边界框。
数组的其余四个元素是边界框左上角和右下角的(xxxyyy)坐标值(值域在0~1之间)。
对于香蕉数据集而言,由于每张图像上只有一个边界框,因此m=1m=1m=1

batch_size, edge_size = 32, 256
train_iter, _ = load_data_bananas(batch_size)
# 取出第一个batch
batch = next(iter(train_iter))
batch[0].shape, batch[1].shape
read 1000 training examples
read 100 validation examples(torch.Size([32, 3, 256, 256]), torch.Size([32, 1, 5]))

[演示]

让我们展示10幅带有真实边界框的图像。
我们可以看到在所有这些图像中香蕉的旋转角度、大小和位置都有所不同。
当然,这只是一个简单的人工数据集,实践中真实世界的数据集通常要复杂得多。

# 因为每个像素值的范围是[0, 255],0是纯黑,255是纯白
# /255是将像素值从[0, 255]​归一化​​到[0, 1]
imgs = (batch[0][0:10].permute(0, 2, 3, 1)) / 255
axes = d2l.show_images(imgs, 2, 5, scale=2)
for ax, label in zip(axes, batch[1][0:10]):# * edge_size返回原尺寸d2l.show_bboxes(ax, [label[0][1:5] * edge_size], colors=['w'])

在这里插入图片描述

小结

  • 我们收集的香蕉检测数据集可用于演示目标检测模型。
  • 用于目标检测的数据加载与图像分类的数据加载类似。但是,在目标检测中,标签还包含真实边界框的信息,它不出现在图像分类中。

练习

  1. 在香蕉检测数据集中演示其他带有真实边界框的图像。它们在边界框和目标方面有什么不同?

解:
不同图像中的边界框的缩放比scale、宽高比ratio、旋转角度以及在图像中的位置不同,与背景图的色彩对比度也不同。

  1. 假设我们想要将数据增强(例如随机裁剪)应用于目标检测。它与图像分类中的有什么不同?提示:如果裁剪的图像只包含物体的一小部分会怎样?

解:
对于图像分类任务,仅需增强图像,且保证图像分类的主体可识别即可。
但对于目标检测任务,需要同时增强图像和边界框,并且需要同步调整边界框坐标,同时需要保证目标以及目标相关图像的完整性,否则可能导致数据增强后图像检测无效。因此,目标检测的数据增强要求更高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90373.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90373.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity3D游戏内存优化指南

前言 Unity3D 游戏的内存控制是保证游戏流畅运行(尤其在移动端和主机平台)和避免崩溃的关键挑战。以下是核心策略和常见问题的解决方案: 对惹,这里有一个游戏开发交流小组,希望大家可以点击进来一起交流一下开发经验…

git学习:首次创建仓库

文章目录前言:1、首次创建仓库并上传数据1.1 创建仓库,1.2 命令上传1.3 首次代码上传至仓库的步骤:2、分支操作2.1 分支的删除2.2 切换分支2.3 查看分支2.4 同步其他分支的修改3、查看电脑的配置文件4、远程仓库命令 git remote5、其他后语前…

C++并行计算:OpenMP与MPI全解析

在高性能计算领域,充分利用硬件资源的并行计算技术已成为刚需。从单节点多核到跨节点集群,开发者需要掌握不同的并行编程模型。本文将系统讲解两种主流并行技术:OpenMP(共享内存多核并行)与MPI(分布式内存集…

TCP 动态选路协议全面研究:OSPF、BGP 与 IS-IS 的比较与应用分析

一、引言:动态选路协议概述 在现代计算机网络中,路由选择是数据传输的核心功能,它决定了数据包从源到目的地的路径选择。随着网络规模的不断扩大和复杂性的增加,静态路由已经无法满足网络动态变化的需求,动态路由协议…

OpenCV 图像哈希类cv::img_hash::AverageHash

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::img_hash::AverageHash是OpenCV中用于图像哈希(Image Hashing)的一个类,属于opencv_img_hash模块。它实现了…

【Python-网络爬虫】爬虫的基础概念介绍

目录 一、爬虫的介绍 1.1 爬虫的概念 1.2 爬虫的作用 1. 搜索引擎数据索引 2. 商业数据采集与分析 3. 舆情监控与社交分析 4. 学术研究与数据挖掘 5. 信息聚合与服务优化 二、爬虫的分类 三、爬虫的基本流程 3.1 基本流程 3.2 Robots协议 一、爬虫的介绍 1.1 爬虫的…

力扣-31.下一个排列

题目链接 31.下一个排列 class Solution {public void nextPermutation(int[] nums) {//1.从右往左找第一个非逆序的数aint left nums.length - 2; //这里是为了找不到顺序对的时候正好停在-1while (left > 0 && nums[left] > nums[left 1]) { //一定要取等号…

Python爬虫实战:研究python-nameparser库相关技术

1. 引言 在当今数字化时代,姓名作为个人身份的重要标识,在许多领域都有着广泛的应用需求。例如,在客户关系管理系统中,准确解析姓名可以帮助企业更好地了解客户背景;在学术研究中,分析作者姓名分布有助于发现研究团队的地域特征;在社交网络分析中,姓名信息可以辅助进行…

Android中MVI架构详解

博主前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住也分享一下给大家 👉点击跳转到教程 什么是 MVI 架构? MVI (Model-View-Intent) 是一种单向数据流的架构模式,它源于响应式编程思想。在 MVI 中: 架构图: 1、Model: 代表的是UI 状态,它包含了…

AutoGen-AgentChat-3-人机交互

import os from dotenv import load_dotenvload_dotenv()True人机交互 在上一节“团队”中,我们了解了如何创建、观察和控制代理团队。本节将重点介绍如何在应用程序中与团队进行交互,并向团队提供人工反馈。 您可以通过两种主要方式从您的应用程序与团队…

Flink Db2 CDC 环境配置与验证

一、DB2 数据库核心配置 1. 启用数据库日志记录与CDC支持 -- 以DB2管理员身份连接数据库 CONNECT TO mydb USER db2inst1 USING password;-- 启用数据库归档日志模式(CDC依赖) UPDATE DATABASE CONFIGURATION USING LOGARCHMETH1 DISK:/db2log/archive…

初识单例模式

文章目录场景通点定义实现思路六种 Java 实现饿汉式懒汉式synchronized 方法双重检查锁 Double Check Lock Volatile静态内部类 Singleton Holder枚举单例单例运用场景破解单例模式参考场景通点 资源昂贵:数据库连接池、线程池、日志组件,只需要一份全…

音乐抢单源码(连单卡单/叠加组规则/打针/多语言)

简介: 测试环境:Nginx、PHP7.2、MySQL5.6,运行目录设置为public,伪静态thinkphp,建议开启SSL 测试语言:11种 不知道谁给我的一套,说是买来的,我看了一下功能感觉也一般&#…

分类树查询性能优化:从 2 秒到 0.1 秒的技术蜕变之路

在电商系统中,分类树查询是一个基础且高频的功能,然而这个看似简单的功能背后却隐藏着不小的性能挑战。本文将分享我们在实际项目中对分类树查询功能进行五次优化的全过程,看如何将查询耗时从 2 秒缩短至 0.1 秒,为用户提供更流畅…

Ansible 介绍及安装

简介 Ansible 是一款开源的自动化工具,广泛应用于配置管理、应用部署、任务自动化以及多节点管理等领域。它由 Michael DeHaan 于 2012 年创建,ansible 目前已经已经被红帽官方收购,是自动化运维工具中大家认可度最高的,并且上手…

超光谱相机的原理和应用场景

超光谱相机是光谱成像技术的尖端形态,具备亚纳米级光谱分辨率与超千波段连续覆盖能力,通过“图谱合一”的三维数据立方体实现物质的精准识别与分析。其核心技术架构、应用场景及发展趋势如下:一、核心技术原理1、‌分光机制‌‌干涉分光‌&am…

掌握MySQL函数:高效数据处理指南

​ 在 MySQL 数据库管理系统中,函数扮演着极为重要的角色。它们就像是数据库操作的得力助手,能够帮助开发者高效地完成各种数据处理任务。本文将深入探讨 MySQL 函数的方方面面,从其基本概念到实际应用,帮助读者全面掌握这一强大的…

10.SpringBoot的统一异常处理详解

文章目录1. 异常处理基础概念1.1 什么是异常处理1.2 为什么需要统一异常处理1.3 Spring异常处理机制2. SpringBoot默认异常处理2.1 默认错误页面2.2 自定义错误页面3. 全局异常处理器3.1 基础全局异常处理器3.2 统一响应格式3.3 使用统一响应格式的异常处理器4. 自定义异常4.1 …

No Hack No CTF 2025Web部分个人WP

No Hack No CTF 2025 Next Song is 春日影 hint:NextJS Vulnerability at /adminCVE-2025-29927Next.js 中间件权限绕过漏洞 访问admin路由发现跳转利用CVE: curl -i \-H "x-middleware-subrequest: middleware:middleware:middleware:middleware:m…