BigDetection:改进目标检测器预训练的大规模基准之论文阅读

摘要

近年来,多个数据集和开放挑战已被引入用于目标检测研究。为了构建更通用且强大 的目标检测系统,本文提出了一个新的大规模基准数据集,称为 BigDetection。我们的目标是 整合现有数据集(LVIS、OpenImages 和 Object365)的训练数据,并遵循精心设计的原则,构建一个更大规模的数据集,以 提升检测器的预训练效果。具体而言,我们重新定义了一个新的类别体系,统一了来自不同数据源的异构标签空间。BigDetection 数据集包含 600 个物体类别,超过 340 万张训练图像,标注有 3600 万个边界框,在多个维度上都远超现有的目标检测基准数据集,既提供了 机遇,也带来了 挑战。大量实验表明,BigDetection 作为目标检测方法的评测基准具有较高的有效性,同时作为预训练数据集也展现出了显著的提升效果。代码与模型开源地址:https://github.com/amazonresearch/bigdetection。

1. 引言

回顾 2014 年,Microsoft COCO 数据集 [33] 曾是极具挑战性的目标检测基准,当时的最佳检测方法在80类物体上的 平均精度(AP) 甚至 低于20。如今,最先进的检测器 [10, 62] 已能在 COCO test-dev 上达到 60+ AP。作为目标检测的黄金标准,COCO 数据集催生了众多流行的目标检测算法。

为了构建 更鲁棒、更通用的目标检测系统,近年来发布了多个 大规模目标检测数据集,例如 OpenImages [26]、Objects365 [44] 和 LVIS [24]。然而,每个数据集 都有其局限性和挑战:
在这里插入图片描述

OpenImages 约 10% 的边界框标注由机器生成,可能导致标签错误或边界框重叠(图 1 顶部)。
LVIS 旨在覆盖 1200+ 类密集标注类别,但存在 无效标注、严重的长尾分布 等问题(图 1 底部)。
Objects365 词汇量相对较小,可能遗漏某些常见类别(如昆虫)。

BigDetection 数据集
为解决上述问题,我们提出了一个 新的大规模目标检测基准数据集,称为 BigDetection。
我们的目标是整合现有数据集(LVIS、OpenImages 和 Objects365),遵循精心设计的标注原则,构建一个更适合 目标检测器预训练 的大规模数据集。

与现有的 多数据集训练 方法 [59, 67, 70] 不同,我们使用语言模型构建初始的统一标签空间,并手动验证 以 获得最终的类别体系。
BigDetection 数据集 具有 600 个物体类别,包含 340 万张训练图像,3600 万个边界框。表 1 对比了 BigDetection 与其他数据集的统计信息。
在这里插入图片描述

此外,我们进行了 多种实验,以验证 BigDetection 作为新基准的有效性,以及其作为预训练数据集的提升效果。

特别地,如表 3 所示,使用 Swin-Base 作为主干网络的 CBNetV2 [31],在 BigDetection 预训练后,在 COCO test-dev 上达到 59.8 AP。令人惊讶的是,这一性能甚至可以媲美未在 BigDetection 预训练的 Swin-Large(Swin-Large 的计算量是 Swin-Base 的 2 倍)。此外,在 COCO 部分标注数据设置 [48] 下,BigDetection 预训练展现了极高的数据效率,例如,在仅使用 1% 的 COCO 训练数据 时,即可在 COCO 验证集 上达到 25.3 AP。
在这里插入图片描述

主要贡献
我们的贡献可总结如下:

提出了一个新的目标检测数据集 BigDetection,其规模在多个维度上远超现有基准,可作为更具挑战性的 目标检测评测基准。
验证了 BigDetection 作为预训练数据集的有效性,在 COCO 验证集和 test-dev 集 上取得了 最先进的检测结果,同时在 数据效率设定下 也表现出色。
进行了广泛的消融实验,提供了在大规模数据集上训练目标检测器的最佳实践。

相关工作

数据集在目标检测中的作用
大规模、高质量标注的数据集对于推动更优秀的计算机视觉模型至关重要。在目标检测领域,PASCAL VOC [16] 是早期的基准数据集之一,包含 20 个类别、约 1.7 万张图像。尽管与当今的数据集相比规模较小,PASCAL VOC 却培养了许多经典的目标检测器 [18, 60] 和基于深度学习的检测器 [22, 23, 25]。随后,微软在 2014 年推出了 Microsoft COCO [33],至今已成为最广泛使用的目标检测基准。COCO 包含 11.8 万张图像、86 万个实例标注,覆盖 80 个类别。得益于其大规模和高标注质量,COCO 与深度学习一起彻底改变了计算机视觉的格局。最近,随着大量高质量标注工作的推进,更大规模的数据集如 LVIS [24]、OpenImages [26] 和 Objects365 [44] 相继问世,拥有数百万级的实例标注。它们不仅使我们能够学习更多样化、细粒度的物体概念,还为新场景上的少样本/零样本学习提供了可能。此外,还有许多针对特定领域的目标检测数据集(如 [9, 20, 40, 45, 49, 54]),以支持各种实际应用。

多数据集检测器训练
由于完全依赖人工标注的方式无法扩展到超大规模数据集,近期有研究开始探索多数据集联合训练策略,目标是在现有数据集上利用更多标注数据来学习更好的特征表示。
早期的一项工作 [59] 提出在多个数据集上训

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/909749.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/909749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统移植⑨:uboot启动流程详解-bootz启动Linux过程

Linux系统移植⑨:uboot启动流程详解-bootz启动Linux过程 bootz 是 U-Boot 中用于启动 Linux 内核的命令,专为处理 zImage(压缩内核映像) 设计。 启动 Linux 的完整过程: 1. 加载内核与相关文件 U-Boot 先将以下文件…

【R】基于R实现贝叶斯分析(一)

文章目录 贝叶斯简介Why R理论基础一、三种先验分布和对应后验的计算1. 离散先验2.Beta先验(共轭先验)3. 直方图先验 二. 后验抽样1. 网格点采样法2. 其他方法 三、贝叶斯推断1. 参数估计(1) 后验均值(2) 后验方差(3) 后验区间 2. 假设检验3. 预测(1) 先…

论文略读:Personality Alignment of Large Language Models

ICLR 2025 558 当前的大语言模型(LLMs)在对齐时,通常旨在反映普遍的人类价值观与行为模式,但却常常无法捕捉到个体用户的独特特征与偏好。 为填补这一空白,本文提出了**“人格对齐(Personality Alignment&…

JSON与XML怎么选?什么情况下会用到 JSON?

一、JSON 与 XML 的核心区别 从 语法、性能、适用场景 等维度对比,核心差异如下: 对比维度JSONXML语法结构键值对格式(如 {"name": "无线耳机"}),无标签,结构紧凑。标签嵌套格式&…

PCB设计实践(三十六)PCB设计新手系统性注意事项总结

以下是PCB设计的系统性注意事项总结,涵盖布局、布线、电源/地处理、EMC、制造工艺及验证等关键环节,依据行业规范与最佳实践整理: 一、布局设计规范 器件优先级策略 先固定接口器件(电源插座、连接器),锁定…

LangChain中的向量数据库抽象基类-VectorStore

文章目录 前言一、原型定义二、常用说明1、添加或更新文档2、添加或更新文本3、通过文档初始化VectorStore对象4、通过文本初始化VectorStore对象5、获得VectorStoreRetriever对象6、查询最相似的文档三、代码解析1、add_documents方法2、add_texts方法3、from_documents方法4、…

5G光网络新突破:<Light: Science Applications>报道可适应环境扰动的DRC实时校准技术

前言摘要 近日,国际顶尖光学期刊《Light: Science & Applications》刊登了一项来自中国国防科技大学研究团队的重要成果。该团队由姜天教授、张军教授和郝浩教授领衔,成员包括严秋全、欧阳灏(共同一作)等研究人员。他们提出了…

C++:Hash拓展--布隆过滤器

布隆过滤器 问题前景: 之前学习了位图,我们知道位图在大量数据查找时候是很方便的。但位图的缺陷在于只能用于整型数据。而在实际中,我们的数据更多的是更复杂的字符串或者自定义类型。那么此时位图就显得有点无力,所以就诞生了叫布隆过滤器…

快速了解JVM中的深堆与浅堆

在Java虚拟机(JVM)的内存管理世界里,深堆与浅堆是两个重要的概念。它们如同衡量对象内存占用的两把标尺,对于优化程序性能、排查内存泄漏问题起着关键作用。接下来,让我们快速且深入地了解它们。 一、浅堆&#xff08…

开疆智能ModbusTCP转Devicenet网关连接FANUC机器人配置案例

本案例是ModbusTCP主站通过开疆智能ModbusTCP转Devicenet网关连接发那科机器人的配置案例,操作分为三个配置1:ModbusTCP主站配置2:ModbusTCP转Devicenet网关配置3:FANUC机器人配置,具体过程如下 配置过程 主菜单—IO—…

详解RabbitMQ高级特性之发送方确认机制

目录 发送方确认 添加配置 常量类 声明队列和交换机并绑定二者关系 confirm确认模式 编写生产消息代码 生产消息1 解决方法 多次生产消息2 解决方法 生产消息3 return 模式 编写生产消息代码(路由正确) 生产消息1 编写生产消息代码&…

Google Play开发者账号8.3/10.3政策违规自救指南

最近,有一位开发者焦急地向我们诉说,其辛苦开发的多个应用,毫无征兆地全部下架,账户提示违反政策 8.3 和 10.3。经过连夜排查,原来是换皮应用与误导性描述导致的问题。 这并非个例,在 2024 年,G…

pythonday50

作业: 1.好好理解下resnet18的模型结构 2.尝试对vgg16cbam进行微调策略 import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms from torchvision import models from torch.utils.d…

天猫618高增长背后:电商迈入价值战新周期

作者 | 曾响铃 文 | 响铃说 这次618,来“真”的了。 天猫618玩法变得极致简单,只设了“官方立减”的85折的基础优惠,再叠加行业品类券、国补等优惠,最高立减可达50%,十分直观。 让消费者省心的结果也是显而易见的&…

tauri+vue自动更新客户端打包配置

拉取最新代码打开项目根目录下"~.tauri\myapp.key"文件并复制内容 打开项目的powershell窗口,输入如下内容并回车 $env:TAURI_SIGNING_PRIVATE_KEY"复制的myapp.key" $env:TAURI_SIGNING_PRIVATE_KEY_PASSWORD""然后修改tauri.conf.…

硬件------51单片机

一.基本概念 1.裸机程序 BSP BSP:bord suppord pack 板级支持包 就是程序编写的内容是没有操作系统的,直接通过代码去控制寄存器,让硬件按照要求去工作。 主要内容:51单片机 IMAX6ULL 2.linux驱动部分 在裸机BSP程序的基础…

java 基础方法 list分页

新增一个list 泛型分类方法 hutools没这个方法, mybatis 里面的方法不好用 故新增此方法 package com.common.base.util.page;import lombok.Data;import java.util.List;/*** className: VoPage* description: list分页* author: chenyuanlong* date: 2025年6月16日 0016 上午…

操作系统期末复习--操作系统初识以及进程与线程

操作系统概念与主要功能 操作系统的概念 在信息化时代,软件是计算机系统的灵魂,而作为软件核心的操作系统,已与现代计算机系统密不可分、融为一体。计算机系统自下而上大致分为4部分:硬件、操作系统、应用程序和用户 操作系统管…

使用jhat查看dump.hprof文件内具体对象的属性值信息

jhat是JDK自带的堆转储分析工具,可以用来查看.hprof文件中对象的具体内容。本文演示使用的是JKD8. 一、启动jhat 执行启动命令。 jhat -J-Xmx4g your_heap_dump.hprof -J-Xmx4g表示为jhat分配4GB内存,根据你自己情况调整大小。your_heap_dump.hprof是…

freeRTOS之队列(queue)

一.概述 1.介绍 队列(queue)可以用于"任务到任务"、“任务到中断”、"中断到任务"直接传输信息。 2.核心功能 线程安全:自动处理多任务访问时的互斥问题。 数据复制:入队时复制数据(而非引用),…