BigDetection：改进目标检测器预训练的大规模基准之论文阅读

摘要

近年来，多个数据集和开放挑战已被引入用于目标检测研究。为了构建更通用且强大的目标检测系统，本文提出了一个新的大规模基准数据集，称为 BigDetection。我们的目标是 整合现有数据集（LVIS、OpenImages 和 Object365）的训练数据，并遵循精心设计的原则，构建一个更大规模的数据集，以提升检测器的预训练效果。具体而言，我们重新定义了一个新的类别体系，统一了来自不同数据源的异构标签空间。BigDetection 数据集包含 600 个物体类别，超过 340 万张训练图像，标注有 3600 万个边界框，在多个维度上都远超现有的目标检测基准数据集，既提供了机遇，也带来了挑战。大量实验表明，BigDetection 作为目标检测方法的评测基准具有较高的有效性，同时作为预训练数据集也展现出了显著的提升效果。代码与模型开源地址：https://github.com/amazonresearch/bigdetection。

1. 引言

回顾 2014 年，Microsoft COCO 数据集 [33] 曾是极具挑战性的目标检测基准，当时的最佳检测方法在80类物体上的平均精度（AP）甚至低于20。如今，最先进的检测器 [10, 62] 已能在 COCO test-dev 上达到 60+ AP。作为目标检测的黄金标准，COCO 数据集催生了众多流行的目标检测算法。

为了构建更鲁棒、更通用的目标检测系统，近年来发布了多个大规模目标检测数据集，例如 OpenImages [26]、Objects365 [44] 和 LVIS [24]。然而，每个数据集都有其局限性和挑战：
在这里插入图片描述

OpenImages 约 10% 的边界框标注由机器生成，可能导致标签错误或边界框重叠（图 1 顶部）。
LVIS 旨在覆盖 1200+ 类密集标注类别，但存在无效标注、严重的长尾分布等问题（图 1 底部）。
Objects365 词汇量相对较小，可能遗漏某些常见类别（如昆虫）。

BigDetection 数据集
为解决上述问题，我们提出了一个新的大规模目标检测基准数据集，称为 BigDetection。
我们的目标是整合现有数据集（LVIS、OpenImages 和 Objects365），遵循精心设计的标注原则，构建一个更适合目标检测器预训练的大规模数据集。

与现有的多数据集训练方法 [59, 67, 70] 不同，我们使用语言模型构建初始的统一标签空间，并手动验证以获得最终的类别体系。
BigDetection 数据集具有 600 个物体类别，包含 340 万张训练图像，3600 万个边界框。表 1 对比了 BigDetection 与其他数据集的统计信息。
在这里插入图片描述

此外，我们进行了多种实验，以验证 BigDetection 作为新基准的有效性，以及其作为预训练数据集的提升效果。

特别地，如表 3 所示，使用 Swin-Base 作为主干网络的 CBNetV2 [31]，在 BigDetection 预训练后，在 COCO test-dev 上达到 59.8 AP。令人惊讶的是，这一性能甚至可以媲美未在 BigDetection 预训练的 Swin-Large（Swin-Large 的计算量是 Swin-Base 的 2 倍）。此外，在 COCO 部分标注数据设置 [48] 下，BigDetection 预训练展现了极高的数据效率，例如，在仅使用 1% 的 COCO 训练数据时，即可在 COCO 验证集上达到 25.3 AP。
在这里插入图片描述

主要贡献
我们的贡献可总结如下：

提出了一个新的目标检测数据集 BigDetection，其规模在多个维度上远超现有基准，可作为更具挑战性的目标检测评测基准。
验证了 BigDetection 作为预训练数据集的有效性，在 COCO 验证集和 test-dev 集上取得了最先进的检测结果，同时在数据效率设定下也表现出色。
进行了广泛的消融实验，提供了在大规模数据集上训练目标检测器的最佳实践。

相关工作

数据集在目标检测中的作用
大规模、高质量标注的数据集对于推动更优秀的计算机视觉模型至关重要。在目标检测领域，PASCAL VOC [16] 是早期的基准数据集之一，包含 20 个类别、约 1.7 万张图像。尽管与当今的数据集相比规模较小，PASCAL VOC 却培养了许多经典的目标检测器 [18, 60] 和基于深度学习的检测器 [22, 23, 25]。随后，微软在 2014 年推出了 Microsoft COCO [33]，至今已成为最广泛使用的目标检测基准。COCO 包含 11.8 万张图像、86 万个实例标注，覆盖 80 个类别。得益于其大规模和高标注质量，COCO 与深度学习一起彻底改变了计算机视觉的格局。最近，随着大量高质量标注工作的推进，更大规模的数据集如 LVIS [24]、OpenImages [26] 和 Objects365 [44] 相继问世，拥有数百万级的实例标注。它们不仅使我们能够学习更多样化、细粒度的物体概念，还为新场景上的少样本/零样本学习提供了可能。此外，还有许多针对特定领域的目标检测数据集（如 [9, 20, 40, 45, 49, 54]），以支持各种实际应用。

多数据集检测器训练
由于完全依赖人工标注的方式无法扩展到超大规模数据集，近期有研究开始探索多数据集联合训练策略，目标是在现有数据集上利用更多标注数据来学习更好的特征表示。
早期的一项工作 [59] 提出在多个数据集上训

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/news/909749.shtml
繁体地址，请注明出处：http://hk.pswp.cn/news/909749.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！