YOLO 系列检测器以其高效性和实用性而闻名。然而,它们依赖于预定义和训练的目标类别,这限制了其在开放场景中的适用性。为了解决这一限制,我们提出了 YOLO-World,这是一种创新的方法,通过
视觉-语言建模
和大规模数据集预训练,增强了 YOLO 的开放词汇检测能力
。具体来说,我们提出了一种新的可重参数化视觉-语言路径聚合网络
(RepVL-PAN)和区域-文本对比
损失,以促进视觉和语言信息之间的交互。我们的方法在零样本
检测方面表现出色,能够高效地检测各种目标。在具有挑战性的 LVIS 数据集上,YOLO-World 在 V100 GPU 上实现了 35.4 AP 和 52.0 FPS,在准确性和速度方面均优于许多最先进的方法。此外,经过微调的 YOLO-World 在多个下游任务中表现出色,包括目标检测和开放词汇实例分割。
paper: YOLO-World: Real-Time Open-Vocabulary Object Detection
github: https://github.com/AILab-CVC/YO