[2025CVPR-目标检测方向] CorrBEV:多视图3D物体检测

1. ​研究背景与动机

论文关注自动驾驶中相机仅有的多视图3D物体检测(camera-only multi-view 3D object detection)问题。尽管基于鸟瞰图(BEV)的建模近年来取得显著进展(如BEVFormer和SparseBEV等基准模型),但当前研究主要优化整体平均性能(如nuScenes数据集中的NDS和mAP指标),却忽视了关键角落案例(corner cases)。其中,遮挡(occlusion)是一个关键挑战:部分被遮挡的物体(如行人)在检测中特征质量下降,导致漏检或误检,这对自动驾驶安全构成严重威胁(例如,未能检测到部分被遮挡的行人可能导致事故)。

论文的灵感源自人类感知系统(amodal perception)。人类能基于先验知识(如物体类别和形状)重构被遮挡物体的完整语义概念。类似地,论文提出通过引入视觉和语言原型作为先验知识,来补偿遮挡导致的特征损失。视觉原型基于2D图像模板(裁剪自训练数据),语言原型则来自类别名称(如"pedestrian")的语义嵌入。这些原型通过相关学习(correlation learning)与基准模型融合,提升特征质量。

 

Figure 1直观展示了这一动机:(a)部分说明在真实驾驶场景中,注入视觉和语言原型可以补全被遮挡物体的特征;(b)对比基准模型(如SparseBEV)与CorrBEV在检测被遮挡物体上的差异,强调原型知识的增强作用。值得注意的是,该方法虽然针对遮挡设计,但实验表明它也提升了其他挑战场景(如恶劣天气)的鲁棒性。


2. ​方法细节:CorrBEV框架

CorrBEV是一个即插即用(plug-and-play)框架,可无缝集成到现有多视图3D检测基准模型中(如BEVFormer和SparseBEV)。它包含三个核心组件,均通过高效的相关学习实现知识融合。

  • Multi-modal Prototype Generator(多模态原型生成器)​​:
    该组件生成视觉和语言原型作为先验知识。视觉原型基于训练数据中的2D标注框裁剪图像,使用预训练模型DeViT提取特征嵌入(Pv​∈RK×N×D),并按可见性级别(visibility level)和类别聚类,形成遮挡感知的原型(Pvo​∈R(N×M)×D,N=10类别,M=4可见性级别)。语言原型则通过预训练BERT模型将类别名称(如"pedestrian")转化为嵌入(Pl​∈RN×D)。文本编码器在训练中微调,而视觉原型离线生成以减少计算开销。最终,原型通过广播(broadcasting)拼接为统一的多模态原型P∈R(N×M)×D。

  • Correlation-guided Query Learner(相关引导查询学习器)​​:
    该组件将多模态原型与基准模型的特征融合,采用Siamese对象跟踪中的深度相关(depth-wise correlation)操作,确保高效性。具体包括:

    • 深度相关操作​:将原型P与主干特征Fb​通过1×1卷积融合,生成相关特征Fcorr​(公式:Fcorr​=Conv1×1​(P,Fb​))。该操作增强目标相关特征并抑制背景噪声。
    • 目标感知查询初始化​:基于相关特征预测置信度图Hvis​,从中提取top-k位置嵌入作为目标感知查询Qt​,与基准的可学习查询Qlearn​通过交叉注意力融合(公式:Q=CrossAttn(Qlearn​,Qt​,Qt​))。
    • 双路径混合采样​:3D查询通过投影点采样特征,同时从主干特征Fb​和相关特征Fcorr​中采样,减轻遮挡模糊性。
      整体架构如图Figure 2所示,强调原型注入提升遮挡物体的检测质量。
  • Occlusion-aware Trainer(遮挡感知训练器)​​:
    针对训练不平衡(不同可见性级别的物体数量不均等),该组件优化训练流程:
    • 伪遮挡处理器(Pseudo-occlusion Processor, P2)​​:在非遮挡物体(高可见性)的2D框内随机丢弃像素(替换为区域均值),模拟遮挡以平衡数据分布。
    • 对比语义对齐(Contrastive Semantic Alignment)​​:使用对比损失(contrastive loss)对齐视觉特征与语言原型,将同一类别的不同遮挡级别特征拉近到统一语义空间,增强分类准确性。
      该训练器引入零推理开销,仅轻微增加训练成本。

 

Figure 3展示了nuScenes数据集中不同可见性级别的分布,突出了遮挡级别(如Vis1: 0-40%可见性)的样本稀缺性,解释P2设计的必要性。 

3. ​实验设计与结果

论文在nuScenes数据集上进行实验,验证CorrBEV的有效性和泛化性。数据集包含1000个驾驶场景,标注了10个类别的140万3D框,并划分可见性级别(Vis1-Vis4,从低到高)。评估指标包括平均精度(mAP)、nuScenes检测得分(NDS),以及各可见性级别的召回率(Recall)。

  • 实验设置​:

    • 基准模型​:应用CorrBEV到BEVFormer(dense-query)和SparseBEV(sparse-query),分别称为CorrBEVfm​和CorrBEVsp​。
    • 训练细节​:使用8×NVIDIA RTX 3090 GPU,遵循基准模型设置(如ResNet-101骨干网络)。
    • 评估协议​:除整体性能外,还使用RoboBEV协议评估不同角落案例(如遮挡、雪天、低光照)。
  • 整体性能结果​:

    • CorrBEV显著提升基准模型。在nuScenes验证集上,BEVFormer提升2.6% mAP和2.6% NDS,SparseBEV提升2.7% mAP和1.6% NDS(见表1和表2)。测试集上也有类似提升(如BEVFormer提升3.6% mAP)。
    • 推理效率高:相比SparseBEV(21.7 FPS),CorrBEV仅降至18.4 FPS,训练开销增加7.48%(21.41 vs. 19.92 GPU-days)。
  • 遮挡性能结果​:

    • CorrBEV在低可见性物体(Vis1和Vis2)上提升最显著。例如,SparseBEV在Vis1的召回率从60.4%提升至69.1%(见表1),证明原型有效补全遮挡特征。
    • 有趣的是,dense-query模型(如BEVFormer)在高可见性物体上提升较小(Vis4召回率72.4% vs. 72.3%),而sparse-query模型(如SparseBEV)提升显著(80.0% to 87.4%),说明原型对稀疏采样更有效。

 

Figure 4以SOLOFusion为参考,展示了CorrBEV在召回率上的相对改进,凸显其在遮挡条件下的优势。

  • 其他角落案例结果​:
    尽管针对遮挡设计,CorrBEV提升了其他挑战场景的鲁棒性(RoboBEV协议)。如图Figure 5所示,在雪天(Snow)和颜色量化(ColorQuant)等场景下,BEVFormer基准模型有明显提升(例如雪天场景提升显著),证明方法能应对多种特征退化问题。

 

  • 组件消融分析​:

    • 多模态原型:语言原型单独提升1.1% mAP(vs. 基线),视觉原型进一步增加0.6% mAP,证明互补性。
    • 训练策略:对比损失(CL)和P2各贡献约0.5% mAP提升(见表3)。
    • 原型微调:冻结语言或视觉原型会降低性能,尤其视觉原型冻结导致mAP下降1.2%(见表4),强调微调的必要性。

  • 定性结果​:
    Figure 6可视化对比:在典型遮挡场景中,CorrBEV成功检测基准模型漏检的物体。例如,前摄像头中,交通灯柱遮挡的行人(青色圈)被检测出;前左和后右摄像头中,拥挤行人和障碍物(黄色圈)检测更准确,提升驾驶安全。

 

嵌入可视化​:
Figure 7展示t-SNE降维后的特征分布。对比损失对齐了“行人、自行车、摩托车”类别的嵌入,减少混淆(左为基线,右为CorrBEV),有利于下游跟踪和预测任务。 

 

4. ​主要贡献与结论

论文的贡献总结为四点:

  1. 即插即用框架​:引入视觉和语言原型作为先验知识,提升检测鲁棒性,尤其针对部分被遮挡物体。
  2. 创新相关学习​:首次将相关学习用于多模态原型与3D检测模型的融合,高效提升特征质量。
  3. 优化训练流程​:提出随机像素丢弃(P2)和多模态对比对齐(CL),改善遮挡物体检测能力。
  4. 广泛验证​:在多个基准模型(BEVFormer、SparseBEV)上实现一致提升,并在nuScenes和RoboBEV协议中证实有效性。

结论强调,CorrBEV填补了多视图3D检测中遮挡处理的空白,其设计源于真实需求。实验证明,该方法不仅提升遮挡性能,还增强整体鲁棒性。论文呼吁社区更多关注BEV感知中的遮挡问题,以推动自动驾驶安全。未来工作可探索原型学习在其他感知任务的应用。

论文地址: https://openaccess.thecvf.com/content/CVPR2025/papers/Xue_CorrBEV_Multi-View_3D_Object_Detection_by_Correlation_Learning_with_Multi-modal_CVPR_2025_paper.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/90420.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/90420.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle 数据库批量变更数据 将a表字段批量更新为b表字段

需求:将excel表中的数据批量更新到 taccoinfo表中vc_broker字段0、备份:create table taccoinfo0724 as select vc_custno ,vc_broker from taccoinfo 1、创建临时表: create table taccoinfo0724_1 as select vc_custno ,vc_broker from…

vim-xcode 项目常见问题解决方案

vim-xcode 项目常见问题解决方案 项目基础介绍 vim-xcode 是一个开源项目,旨在通过 Vim 编辑器与 Xcode 项目进行交互。该项目允许开发者在 Vim 中直接构建、测试和运行 Xcode 项目,从而提高开发效率。vim-xcode 主要使用 Vimscript 编写,并依…

个性化网页计数器

需要一个服务器环境来存放我们的计数器脚本和数据库。对于初学者来说,PHP和MySQL是一个不错的组合,因为它们易于学习且广泛应用。接下来,我们开始编写PHP脚本。这个脚本的主要任务是接收来自网页的请求,并将访问信息存储到数据库中…

详解力扣高频SQL50题之1683. 无效的推文【入门】

传送门:1683. 无效的推文 题目 表:Tweets ----------------------- | Column Name | Type | ----------------------- | tweet_id | int | | content | varchar | ----------------------- 在 SQL 中,tweet_id 是这个表的主键。 content 只…

Spring Boot与Python的联动:实战案例解析

目录一、背景与需求二、技术准备2.1 Spring Boot 基础2.2 Python 环境搭建三、基于 RESTful API 的调用3.1 创建 Python Flask 应用3.2 创建 Spring Boot 应用3.3 测试与验证四、通过 ProcessBuilder 调用 Python 脚本4.1 创建 Python 脚本4.2 Spring Boot 中调用脚本4.3 注意事…

力扣刷题(第九十七天)

灵感来源 - 保持更新,努力学习- python脚本学习密钥格式化解题思路移除原字符串中的所有破折号,并将小写字母转换为大写。从后向前遍历处理后的字符串,每 K 个字符为一组。最后将各组逆序拼接,并用破折号分隔。class Solution:def…

ESP32入门实战:PC远程控制LED灯完整指南

引言:物联网远程控制基础 远程控制是物联网应用的基础功能之一,通过ESP32实现PC远程控制LED灯不仅是一个经典入门项目,更是理解网络通信、嵌入式开发和物联网交互的绝佳实践。本文将详细介绍如何通过WiFi和UDP协议,从零开始构建一…

主流摄像头协议及其开源情况,GB/T 28181协议介绍

一、主流摄像头协议及开源情况 1. RTSP(Real Time Streaming Protocol) 技术特性:基于TCP/UDP的实时流传输协议,支持双向通信(如暂停、播放控制)。应用场景:摄像头实时监控、视频点播系统。开源…

「iOS」——RunLoop学习

底层学习iOS--RunLoop学习RunLoop的概念RunLoop与线程的关系RunLoop的结构ModeObserverTimerSourceRunLoop 执行流程RunLoop 的应用1.AutoreleasePool是什么时候释放的2.触控事件的响应3.刷新界面4.线程保活小知识mach Port**Toll-Free Bridging(对象桥接&#xff0…

从零构建 Node20+pnpm+pm2 环境镜像:基于 Dockerfile 的两种方案及持久化配置指南

前言:在Node.js项目部署中,环境一致性和服务自动恢复是运维的核心需求。无论是本地开发还是生产部署,使用Docker封装Node20、pnpm(高效包管理)和pm2(进程守护)环境,能避免“本地能跑…

【Python机器学习】4.3. 模型优化

喜欢的话别忘了点赞、收藏加关注哦(关注即可查看全文),对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 4.3.1. 实战中会遇到的问题 首先看一个例子: 根据任检测数据x1x_1x1​、x2x_2x2…

Impact rating 影响等级定义(学习笔记)

影响等级可以通过四个方面定义,包含安全性safety,经济型financial,操作性operational,和私密性privacy 即[S,F,O,P]这四个方面。每个方面又可以定义四个不同的等级,包含severe(严重的)&#xff…

同花顺前端潜在面试题目与答案

潜在面试题目与答案 以下是根据您提供的“岗位职责”和“岗位要求”整理出的潜在面试题目和参考答案。请注意,这些答案仅供参考,您需要根据自己的实际经验和理解进行更详细和个性化的阐述。 一、基础技术知识(Vue/前端工程化/HTML/CSS/JS&…

J2EE模式---组合实体模式

组合实体模式基础概念组合实体模式(Composite Entity Pattern)是一种企业级设计模式,属于 J2EE 模式的一种,其核心思想是将多个实体对象组合成一个更高层次的对象(组合实体),以简化客户端与这些…

基于CloudBase+React+CodeBudddy的云上智能睡眠应用开发实践

本文详细记录了如何利用CloudBase云开发平台、React前端框架和CodeBudddy智能编程技术栈,构建一个云端智能睡眠监测与分析系统。通过完整的项目实践,探索AIoT时代健康管理应用的开发范式。一、智能睡眠监测:云时代的健康守护者在快节奏的现代…

QML 模型

QML模型基础架构QML采用经典的Model-View-Delegate (MVD)​架构来分离数据与界面,这与MVC模式类似但更加适合声明式UI开发。在这个架构中:​Model​:负责管理数据,可以是简单的整数,也可以是复杂的C自定义模型​View​…

基于Trae IDE与MCP实现网页自动化测试的最佳实践

引言 在现代Web开发流程中,自动化测试已成为保障应用质量、提升开发效率的关键环节。Playwright作为一款新兴的测试框架,因其出色的跨浏览器支持能力和丰富的API特性,正逐渐成为自动化测试领域的主流选择。本文将详细介绍如何在葡萄城Trae ID…

Android 动画优化

动画是提升 Android 应用用户体验的核心手段 —— 流畅的过渡动画能让页面切换更自然,交互反馈动画能让操作更有质感。但动画也是性能 “重灾区”:掉帧、卡顿、内存暴涨等问题,往往源于对动画原理和优化技巧的忽视。本文将从动画性能的核心瓶…

Linux——进程间通信,匿名管道,进程池

文章目录一、进程间通信(IPC)的理解1.为什么进程间要通信(IPC)2.如何进行通信二、匿名管道1.管道的理解2.匿名管道的使用3.管道的五种特性4.管道的四种通信情况5.管道缓冲区容量三、进程池1.进程池的理解2.进程池的制作四、源码Pr…

深度分析Java内存回收机制

内存回收机制是Java区别于C/C等语言的核心特性之一,也是Java开发者理解程序性能、解决内存相关问题(如内存泄漏、OOM)的关键。 核心目标: 自动回收程序中不再使用的对象所占用的内存,防止内存耗尽,同时尽量…