yolo world (1): 论文解读

在这里插入图片描述

YOLO 系列检测器以其高效性和实用性而闻名。然而，它们依赖于预定义和训练的目标类别，这限制了其在开放场景中的适用性。为了解决这一限制，我们提出了 YOLO-World，这是一种创新的方法，通过视觉-语言建模和大规模数据集预训练，增强了 YOLO 的开放词汇检测能力。具体来说，我们提出了一种新的可重参数化视觉-语言路径聚合网络（RepVL-PAN）和区域-文本对比损失，以促进视觉和语言信息之间的交互。我们的方法在零样本检测方面表现出色，能够高效地检测各种目标。在具有挑战性的 LVIS 数据集上，YOLO-World 在 V100 GPU 上实现了 35.4 AP 和 52.0 FPS，在准确性和速度方面均优于许多最先进的方法。此外，经过微调的 YOLO-World 在多个下游任务中表现出色，包括目标检测和开放词汇实例分割。
paper: YOLO-World: Real-Time Open-Vocabulary Object Detection
github: https://github.com/AILab-CVC/YO

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/92383.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/92383.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！