Python----目标检测(MS COCO数据集)

一、MS COCO数据集

COCO 是一个大规模的对象检测、分割和图像描述数据集。COCO有几个 特点:

        Object segmentation:目标级的分割(实例分割)

        Recognition in context:上下文中的识别(图像情景识别)

        Superpixel stuff segmentation:超像素分割

        330K images (>200K labeled):330K 图像(>200K 已经做好标记)

        1.5 million object instances:150 万个对象实例

        80 object categories:80 个目标类别

        91 stuff categories: 91 个场景物体类别 (stuff中包含没有明确边界 的材料和对象,比如天空)

        5 captions per image:每张图片 5 个情景描述(标题)

        250,000 people with keypoints:250,000 人体的关键点标注

注意:80 object categories 是 91 stuff categories 的子集

        80 object categories 是传统意义上的“物体”,通常是可以单独识别和分 割的具体对象。它们通常具有明确的边界,可以用边界框(bounding box)和分割掩码(segmentation mask)进行标注。例如:人 (person)、自行车(bicycle) 这些物体类别在图像中通常是离散的,可 以被独立标注和识别。

        91 Stuff Categories 是“场景物体”或“背景物体”,通常是一些没有明确边 界的区域,通常作为背景存在。它们不容易被单独识别,因为它们的边界 通常是连续的。这些类别在图像中通常覆盖大面积,且没有清晰的边界。 例如:草(grass)、天空(sky) 这些场景物体类别的标注通常用于场景 解析任务,例如场景分割(scene segmentation),而不是对象检测。

官方:

        COCO - Common Objects in Context

论文

        [1405.0312] Microsoft COCO: Common Objects in Context 

二、与Pascal VOC对比

        橙色是Pascal VOC包含的类别,蓝色是COCO包含的类别。纵坐标是标注 的数量。 很

        多模型的预训练模型(模型文件)都是COCO数据集上训练出来的,然后我们自己去做迁移学习进行训练。

        注意:COCO数据集训练非常耗时,一般单块GPU(如 NVIDIA V100): 通常需要数天到数周的训练时间。

三、目标检测需要的文件 

2017 Train images [118K/18GB]:训练过程中使用到的所有图像文件

2017 Val images [5K/1GB]:验证过程中使用到的所有图像文件

2017 Train/Val annotations[241MB]:对应训练集和验证集的标注json文 件

train2017:所有训练图像文件夹(118287张)

val2017:所有验证图像文件夹(5000张)

annotations:对应标注文件夹

        |—instances train2017.json:对应目标检测、分割任务的训练集标注 文

        |—instances_val2017.json:对应目标检测、分割任务的验证集标注文 件

        |—captions train2017.json:对应图像描述的训练集标注文件

        |—captions_va12017.json:对应图像描述的验证集标注文件

        |—person keypoints train2017.json:对应人体关键点检测的训练集 标注文件

        |—person_keypoints_val2017.json:对应人体关键点检测的验证集标 注文件夹

四、读取COCO数据集的JSON

import jsonlabels =json.load(open("../annotations_trainval2017/annotations/instances_train2017.json","r"))
print(labels)

 直接打印的话,打印不全,同时格式很乱,所以使用debug。

 其中:labels中有5个字典:分别是info、licenses、Images、 annotations、categories。

4.1、info

这个字典包含了关于数据集的基本信息。

        description : 数据集的描述,这里是 "COCO 2017 Dataset"。

        url : 数据集的URL链接,即官网地址,这里是 "https://cocodataset.org/"。

        version : 数据集的版本号,这里是 "1.0"。

        year : 数据集创建的年份,这里是 2017。

        contributor : 数据集的贡献者,这里是 "COCO Consortium"。

        date_created : 数据集创建的日期,这里是 "2017/09/01"。

4.2、licenses

这个字典列表包含了数据集所用到的不同许可证的信息。

每个字典表示一种许可证,包含以下键:

        id : 许可证的唯一标识符。

        name : 许可证的名称。

        url : 许可证的详细信息链接。

例如: id: 1 , name: Attribution-NonCommercial-ShareAlike License 代表此许可证。

4.3、images

这个字典列表包含了数据集中所有图像的信息。

每个字典表示一张图像,包含以下键:

        id : 图像的唯一标识符。

        coco_url : 图像的COCO数据集URL。

        其他可能包含的信息如文件名、高度、宽度等。

4.4、annotations

这个字典列表包含了数据集中所有标注的信息。

每个字典表示一个标注,包含以下键:

        id : 标注的唯一标识符。

        image_id : 该标注所属图像的唯一标识符。

        category_id : 该标注所属类别的唯一标识符(91 stuff categories的 索引)。

        area : 标注区域的面积。

        bbox : 标注的边界框(bounding box),通常用一个四元组表示(x, y, width, height)。

        segmentation : 分割标注的信息,通常是一个多边形的点集。

        其他标注信息如分数(score)、关键点(keypoints)等。

4.5、categories

这个字典列表包含了数据集中所有类别的信息(91 stuff categories,使用 80 object categories时需要映射)。

每个字典表示一个类别,包含以下键:

        id : 类别的唯一标识符。

        name : 类别的名称(如 "person", "bicycle" 等)。

        supercategory : 类别的上一级分类(超类)。

例如:

        id: 1 , name: person , supercategory: person 代表 "person" 类 别。

五、使用pycocotools读取COCO数据集

5.1、安装pycocotools

python -m pip install pycocotools-windows==2.0.0.2  -i https://pypi.tuna.tsinghua.edu.cn/simple/

5.2、读取COCO数据集并显示目标检测的第一张

import os
import json
from PIL import Image, ImageDraw
from pycocotools.coco import COCO# COCO数据集的路径
annotation_path = "./instances_val2017.json"
img_path = "./val2017/val2017"# 加载COCO数据集,打断点
coco = COCO(annotation_path)
# 查看5000张图像# 获取所有图像的ID
img_ids = coco.getImgIds()
# 看到所有5000张图像的索引# 处理前5张图像
for img_id in img_ids[:1]:# 获取图像信息,可以看到397133这章图片的信息img_info = coco.loadImgs(img_id)[0]img_file = os.path.join(img_path, img_info['file_name'])# 打开图像img = Image.open(img_file)draw = ImageDraw.Draw(img)# 获取该图像的所有标注# getAnnIds 函数可以接受多个参数,例如 imgIds、catIds 和 areaRng,以便根据图像ID、类别ID或面积范围来筛选标注。# 这个函数会返回一个标注ID列表,这些标注ID对应于指定图像ID的所有标注。ann_ids = coco.getAnnIds(imgIds=img_id)anns = coco.loadAnns(ann_ids)for ann in anns:# 获取类别名称category_id = ann['category_id']category_name = coco.loadCats(category_id)[0]['name']# 获取边界框bbox = ann['bbox']x, y, w, h = bbox# 绘制边界框draw.rectangle([x, y, x + w, y + h], outline="red", width=2)# 绘制类别名称draw.text((x, y - 10), category_name, fill="red")# 显示图像img.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/82388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Spring AI集成实战】基于NVIDIA LLM API构建智能聊天应用:从配置到函数调用全解析

【Spring AI集成实战】基于NVIDIA LLM API构建智能聊天应用:从配置到函数调用全解析 前言 在人工智能应用开发领域,大语言模型(LLM)的集成能力至关重要。NVIDIA作为全球领先的GPU厂商,其LLM API提供了对Meta Llama-3.…

通用的管理账号设置设计(一)

背景 首先说明一下需求背景: 在整个角色分类中分为管理员和用户,用户可以分为很多级别,比如用户处于哪个组(group),用户处于哪个site(城市)。管理员可以: 2.1 锁定整个…

第5章 软件工程基础知识

5.2 软件过程模型 掌握常见软件开发模型的基本概念。 瀑布模型:各阶段的固定顺序,如同瀑布流水。适用于需求明确,且很少发生较大变化的项目。 演化模型: 原型模型:适用于用户需求不清,需求经常变化的情况…

深浅拷贝?

一、定义: 浅拷贝:只复制对象的第一层属性,若第一层属性是引用类型(如对象、数组),则复制其内存地址,修改拷贝后的嵌套对象会影响原对象。 深拷贝:递归复制对象的所有层级&#xf…

MMA: Multi-Modal Adapter for Vision-Language Models论文解读

abstract 预训练视觉语言模型(VLMs)已成为各种下游任务中迁移学习的优秀基础模型。然而,针对少样本泛化任务对VLMs进行微调时,面临着“判别性—泛化性”困境,即需要保留通用知识,同时对任务特定知识进行微…

蚂蚁集团 CTO 何征宇:AGI时代,海量数据带来的质变|OceanBase 开发者大会实录

5 月 17 日,“第三届 OceanBase 开发者大会”在广州举办,会中,蚂蚁集团 CTO 何征宇,进行了题为《AGI时代,海量数据带来的质变》的主题分享。他深度剖析了AI 时代下,数据应用范式的变革,以及生成…

python网络爬虫的基本使用

各位帅哥美女点点关注,有关注才有动力啊 网络爬虫 引言 我们平时都说Python爬虫,其实这里可能有个误解,爬虫并不是Python独有的,可以做爬虫的语言有很多例如:PHP、JAVA、C#、C、Python。 为什么Python的爬虫技术会…

网页模板素材网站 web前端网页制作模板

在当今数字化时代,Web 前端网页制作对于企业和个人来说至关重要。无论是企业官网、个人博客还是电商网站,一个美观、功能性强且易于维护的网页设计能够有效提升用户体验和品牌形象。然而,从零开始设计一个网页往往需要耗费大量的时间和精力&a…

ROS系列(一):ROS入门指南 —— 核心解析与版本演进

引言 机器人操作系统(ROS)的诞生,不仅是一场技术革命,更是一张重新定义机器人开发范式的蓝图。从实验室的原型验证到工业场景的规模化落地,从单机智能到群体协作,ROS以开源、模块化和生态驱动的特性&#…

将 Docker 镜像推送到 GitLab Container Registry 的完整步骤

一、前提准备 GitLab 项目: 在 GitLab 上拥有一个项目,例如 your-group/your-project-name。重要: 确保项目路径(尤其是项目名称部分)全部使用小写字母。例如,如果初始是 Your-Project,请在项目设置中将其路径修改为 y…

Java-HashMap基础与扩展学习总结

​面试官​: “HashMap 是 Java 中最常用的数据结构之一,你能说说它的底层实现吗?比如哈希冲突是怎么解决的?” ​你​(结合源码与优化场景): “好的,HashMap 底层是数组链表/红黑…

嵌入式学习之系统编程(五)进程(2)

一、进程的退出 (一)僵尸进程与孤儿进程 (二)相关函数 1、exit函数 2、_exit函数 3、atexit函数 二、进程空间的回收(相关函数) 1、wait函数 2、waitpid函数 3、练习 4、exec族 5、system函数 一…

AI时代新词-Transformer架构:开启AI新时代的关键技术

一、什么是Transformer架构? Transformer架构 是一种基于自注意力机制(Self-Attention Mechanism)的深度学习模型架构,最初由Vaswani等人在2017年的论文《Attention Is All You Need》中提出。它主要用于处理序列数据&#xff08…

基于cornerstone3D的dicom影像浏览器 第二十三章 mpr预设窗值与vr preset

文章目录 前言一、mpr窗口预设窗值二、vr preset三、调用流程 前言 实现mpr窗口预设窗值,vr窗口预设配色 效果如下: 一、mpr窗口预设窗值 可参考 第十五章 预设窗值 逻辑一样的,把windowWidth, windowCenter值转换为voiRange值,…

shell之通配符及正则表达式

通配符与正则表达式 通配符(Globbing) 通配符是由 Shell 处理的特殊字符,用于路径或文件名匹配。当 Shell 在命令参数中遇到通配符时,会将其扩展为匹配的文件路径;若没有匹配项,则作为普通字符传递给命令…

继电保护与安全自动装置:电力系统安全的守护神

电力系统是现代社会赖以生存的基础设施,而继电保护和安全自动装置则是保障电力系统安全稳定运行的守护神。 它们默默无闻地工作着,在电力系统出现异常时,能够迅速准确地切除故障,防止事故扩大,保障电力供应。 那么&…

Flink流处理基础概论

文章目录 引言Flink基本概述传统数据架构的不足Dataflow中的几大基本概念Dataflow流式处理宏观流程数据并行和任务并行的区别Flink中几种数据传播策略Flink中事件的延迟和吞吐事件延迟事件的吞吐如何更好的理解事件的延迟和吞吐flink数据流的几种操作输入输出转换操作滚动聚合窗…

Tomcat 使用与配置全解

一、 Tomcat简介 Tomcat服务器是Apache的一个开源免费的Web容器。它实现了JavaEE平台下部分技术规范,属于轻量级应用服务器。 1. Tomcat版本 Tomcat版本 JDK版本 Servlet版本 JSP版本 10.0.X 8 and later 5.0 3.0 9.0.x 8 and later 4.0 2.3 8.0.x 7…

Unity3D仿星露谷物语开发52之菜单页面

1、目标 创建菜单页面,可通过Esc键开启或关闭。 当把鼠标悬停在上面时它会高亮,然后当点击按钮时标签页会被选择。 2、 创建PauseMenuCanvas (1)创建Canvas 在Hierarchy -> PersistentScene -> UI下创建新的Cavans命名为…

Spring Boot 调优的 12 个关键节点

数据库连接池调优:精准匹配系统资源 症状: 默认配置下,连接池资源使用不当,高并发时连接耗尽或排队。 常见误区: spring:datasource:hikari:maximum-pool-size: 1000 # 设置过大connection-timeout: 30000 # 设置…