[2025CVPR-目标检测方向] CorrBEV：多视图3D物体检测

1. 研究背景与动机

论文关注自动驾驶中相机仅有的多视图3D物体检测（camera-only multi-view 3D object detection）问题。尽管基于鸟瞰图（BEV）的建模近年来取得显著进展（如BEVFormer和SparseBEV等基准模型），但当前研究主要优化整体平均性能（如nuScenes数据集中的NDS和mAP指标），却忽视了关键角落案例（corner cases）。其中，遮挡（occlusion）是一个关键挑战：部分被遮挡的物体（如行人）在检测中特征质量下降，导致漏检或误检，这对自动驾驶安全构成严重威胁（例如，未能检测到部分被遮挡的行人可能导致事故）。

论文的灵感源自人类感知系统（amodal perception）。人类能基于先验知识（如物体类别和形状）重构被遮挡物体的完整语义概念。类似地，论文提出通过引入视觉和语言原型作为先验知识，来补偿遮挡导致的特征损失。视觉原型基于2D图像模板（裁剪自训练数据），语言原型则来自类别名称（如"pedestrian"）的语义嵌入。这些原型通过相关学习（correlation learning）与基准模型融合，提升特征质量。

Figure 1直观展示了这一动机：(a)部分说明在真实驾驶场景中，注入视觉和语言原型可以补全被遮挡物体的特征；(b)对比基准模型（如SparseBEV）与CorrBEV在检测被遮挡物体上的差异，强调原型知识的增强作用。值得注意的是，该方法虽然针对遮挡设计，但实验表明它也提升了其他挑战场景（如恶劣天气）的鲁棒性。

2. 方法细节：CorrBEV框架

CorrBEV是一个即插即用（plug-and-play）框架，可无缝集成到现有多视图3D检测基准模型中（如BEVFormer和SparseBEV）。它包含三个核心组件，均通过高效的相关学习实现知识融合。

Multi-modal Prototype Generator（多模态原型生成器）：
该组件生成视觉和语言原型作为先验知识。视觉原型基于训练数据中的2D标注框裁剪图像，使用预训练模型DeViT提取特征嵌入（Pv∈RK×N×D），并按可见性级别（visibility level）和类别聚类，形成遮挡感知的原型（Pvo∈R(N×M)×D，N=10类别，M=4可见性级别）。语言原型则通过预训练BERT模型将类别名称（如"pedestrian"）转化为嵌入（Pl∈RN×D）。文本编码器在训练中微调，而视觉原型离线生成以减少计算开销。最终，原型通过广播（broadcasting）拼接为统一的多模态原型P∈R(N×M)×D。
Correlation-guided Query Learner（相关引导查询学习器）：
该组件将多模态原型与基准模型的特征融合，采用Siamese对象跟踪中的深度相关（depth-wise correlation）操作，确保高效性。具体包括：
- 深度相关操作：将原型P与主干特征Fb通过1×1卷积融合，生成相关特征Fcorr（公式：Fcorr=Conv1×1(P,Fb)）。该操作增强目标相关特征并抑制背景噪声。
- 目标感知查询初始化：基于相关特征预测置信度图Hvis，从中提取top-k位置嵌入作为目标感知查询Qt，与基准的可学习查询Qlearn通过交叉注意力融合（公式：Q=CrossAttn(Qlearn,Qt,Qt)）。
- 双路径混合采样：3D查询通过投影点采样特征，同时从主干特征Fb和相关特征Fcorr中采样，减轻遮挡模糊性。
  整体架构如图Figure 2所示，强调原型注入提升遮挡物体的检测质量。

Occlusion-aware Trainer（遮挡感知训练器）：
针对训练不平衡（不同可见性级别的物体数量不均等），该组件优化训练流程：
- 伪遮挡处理器（Pseudo-occlusion Processor, P2）：在非遮挡物体（高可见性）的2D框内随机丢弃像素（替换为区域均值），模拟遮挡以平衡数据分布。
- 对比语义对齐（Contrastive Semantic Alignment）：使用对比损失（contrastive loss）对齐视觉特征与语言原型，将同一类别的不同遮挡级别特征拉近到统一语义空间，增强分类准确性。
  该训练器引入零推理开销，仅轻微增加训练成本。

Figure 3展示了nuScenes数据集中不同可见性级别的分布，突出了遮挡级别（如Vis1: 0-40%可见性）的样本稀缺性，解释P2设计的必要性。

3. 实验设计与结果

论文在nuScenes数据集上进行实验，验证CorrBEV的有效性和泛化性。数据集包含1000个驾驶场景，标注了10个类别的140万3D框，并划分可见性级别（Vis1-Vis4，从低到高）。评估指标包括平均精度（mAP）、nuScenes检测得分（NDS），以及各可见性级别的召回率（Recall）。

实验设置：
- 基准模型：应用CorrBEV到BEVFormer（dense-query）和SparseBEV（sparse-query），分别称为CorrBEVfm和CorrBEVsp。
- 训练细节：使用8×NVIDIA RTX 3090 GPU，遵循基准模型设置（如ResNet-101骨干网络）。
- 评估协议：除整体性能外，还使用RoboBEV协议评估不同角落案例（如遮挡、雪天、低光照）。
整体性能结果：
- CorrBEV显著提升基准模型。在nuScenes验证集上，BEVFormer提升2.6% mAP和2.6% NDS，SparseBEV提升2.7% mAP和1.6% NDS（见表1和表2）。测试集上也有类似提升（如BEVFormer提升3.6% mAP）。
- 推理效率高：相比SparseBEV（21.7 FPS），CorrBEV仅降至18.4 FPS，训练开销增加7.48%（21.41 vs. 19.92 GPU-days）。
遮挡性能结果：
- CorrBEV在低可见性物体（Vis1和Vis2）上提升最显著。例如，SparseBEV在Vis1的召回率从60.4%提升至69.1%（见表1），证明原型有效补全遮挡特征。
- 有趣的是，dense-query模型（如BEVFormer）在高可见性物体上提升较小（Vis4召回率72.4% vs. 72.3%），而sparse-query模型（如SparseBEV）提升显著（80.0% to 87.4%），说明原型对稀疏采样更有效。

Figure 4以SOLOFusion为参考，展示了CorrBEV在召回率上的相对改进，凸显其在遮挡条件下的优势。

其他角落案例结果：
尽管针对遮挡设计，CorrBEV提升了其他挑战场景的鲁棒性（RoboBEV协议）。如图Figure 5所示，在雪天（Snow）和颜色量化（ColorQuant）等场景下，BEVFormer基准模型有明显提升（例如雪天场景提升显著），证明方法能应对多种特征退化问题。

组件消融分析：
- 多模态原型：语言原型单独提升1.1% mAP（vs. 基线），视觉原型进一步增加0.6% mAP，证明互补性。
- 训练策略：对比损失（CL）和P2各贡献约0.5% mAP提升（见表3）。
- 原型微调：冻结语言或视觉原型会降低性能，尤其视觉原型冻结导致mAP下降1.2%（见表4），强调微调的必要性。
定性结果：
Figure 6可视化对比：在典型遮挡场景中，CorrBEV成功检测基准模型漏检的物体。例如，前摄像头中，交通灯柱遮挡的行人（青色圈）被检测出；前左和后右摄像头中，拥挤行人和障碍物（黄色圈）检测更准确，提升驾驶安全。

嵌入可视化：
Figure 7展示t-SNE降维后的特征分布。对比损失对齐了“行人、自行车、摩托车”类别的嵌入，减少混淆（左为基线，右为CorrBEV），有利于下游跟踪和预测任务。

4. 主要贡献与结论

论文的贡献总结为四点：

即插即用框架：引入视觉和语言原型作为先验知识，提升检测鲁棒性，尤其针对部分被遮挡物体。
创新相关学习：首次将相关学习用于多模态原型与3D检测模型的融合，高效提升特征质量。
优化训练流程：提出随机像素丢弃（P2）和多模态对比对齐（CL），改善遮挡物体检测能力。
广泛验证：在多个基准模型（BEVFormer、SparseBEV）上实现一致提升，并在nuScenes和RoboBEV协议中证实有效性。

结论强调，CorrBEV填补了多视图3D检测中遮挡处理的空白，其设计源于真实需求。实验证明，该方法不仅提升遮挡性能，还增强整体鲁棒性。论文呼吁社区更多关注BEV感知中的遮挡问题，以推动自动驾驶安全。未来工作可探索原型学习在其他感知任务的应用。

论文地址： https://openaccess.thecvf.com/content/CVPR2025/papers/Xue_CorrBEV_Multi-View_3D_Object_Detection_by_Correlation_Learning_with_Multi-modal_CVPR_2025_paper.pdf

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/90420.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/90420.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！