自己的原文哦~ https://blog.51cto.com/whaosoft/14084543
#VGGT-Long
首次将单目3D重建推向公里级极限!南开、南大提出:分块、循环、对齐,开源
近年来,3D视觉基础模型(Foundation Models)在3D感知任务中展现了惊人的能力,但由于显存的限制,将这些强大的模型应用于大规模、长序列的RGB视频流3D重建仍然是一个巨大的挑战。今天,介绍一项来自南开大学和南京大学的最新研究成果《VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences》。该研究提出了一个名为VGGT-Long的系统,它简单而有效,首次将仅使用单目RGB视频的3D重建能力推向了公里级别的、无边界的室外环境。
- 论文标题: VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences
- 作者: Kai Deng, Zexin Ti, Jiawei Xu, Jian Yang, Jin Xie
- 机构: 南开大学;南京大学
- 论文地址: https://arxiv.org/pdf/2507.16443v1
- 项目地址: https://github.com/DengKaiCQ/VGGT-Long
研究背景与意义
3D场景重建是自动驾驶、机器人导航和增强现实等领域的关键技术。基于学习的,特别是基于基础模型的方法,如VGGT,在小规模场景中表现出色。然而,当面对长达数公里的视频序列时,这些模型往往会因为显存溢出(Out-of-Memory)而崩溃,或者因为误差的不断累积而产生严重的漂移,导致重建失败。
如下图所示,在处理大规模室外场景时,先前的方法(如CUT3R, Fast3R)存在严重的漂移问题,而其他基于基础模型的方法(如MASt3R-SLAM, VGGT)则无法完成整个长序列的处理。相比之下,本文提出的VGGT-Long能够成功完成公里级场景的重建,并保持了场景的准确性。
VGGT-Long的巧妙之处在于,它无需相机标定、无需深度监督、也无需重新训练基础模型,仅通过一套高效的后处理系统,就解决了现有模型的可扩展性瓶颈,实现了与传统SLAM方法相媲美的轨迹和重建性能。
VGGT-Long:核心方法
VGGT-Long系统的核心思想可以概括为其标题中的三个动词:分块(Chunk it)、循环(Loop it)、对齐(Align it)。
1. 分块处理 (Chunk it): 为了克服显存限制,VGGT-Long将长视频序列分割成多个有重叠的、固定长度的短视频块(chunks)。然后,它以滑动窗口的方式,将这些视频块依次送入预训练的VGGT模型进行处理,得到每个块的局部3D点图(pointmap)和相机轨迹。
2. 重叠对齐 (Align it): 得到一系列独立的局部重建结果后,需要将它们拼接成一个全局一致的场景。VGGT-Long利用相邻视频块之间的重叠部分进行对齐。值得一提的是,研究者提出了一种置信度感知对齐(Confidence-aware alignment)策略。VGGT模型会为每个预测的点生成一个置信度分数,该策略可以有效抑制场景中高速运动的物体(如车辆)对对齐过程的干扰,从而提高拼接的鲁棒性和准确性。
3.回环优化 (Loop it): 即使每个块都精确对齐,在长达公里的轨迹上,微小的误差也会不断累积,导致全局尺度的漂移(例如,起点和终点无法闭合)。为了解决这个问题,VGGT-Long引入了轻量级的回环闭合优化(Loop Closure Optimization)。当车辆回到先前经过的位置时,系统会检测到回环,并建立约束。然后通过全局LM(Levenberg-Marquardt)优化,一次性校正整个轨迹的累积误差,确保全局地图的一致性。
实验设计与结果
研究团队在自动驾驶领域极具挑战性的KITTI、Waymo和Virtual KITTI数据集上对VGGT-Long进行了全面评估。
在相机轨迹跟踪精度(ATE)方面,如下表所示,VGGT-Long在KITTI和Waymo数据集上均取得了与传统SLAM方法(如ORB-SLAM3)相当甚至更好的性能,并且显著优于其他基于学习的方法。许多方法在长序列上直接因显存溢出(OOM)或跟踪丢失(TL)而失败。
在3D重建质量方面,VGGT-Long同样表现出色。有趣的是,在Waymo数据集的评估中,研究者发现由于车载激光雷达(LiDAR)的扫描高度和范围有限,其采集的真值点云有时甚至不如视觉方法重建的场景完整(例如,无法感知到天桥的3D结构)。这表明VGGT-Long能够生成比某些真值数据更完整、更精确的几何结构。
在运行效率方面,VGGT-Long的所有组件几乎都能实现实时运行。特别是其轻量级的回环优化,仅需3次迭代即可收敛,达到毫秒级的性能,这对于实际应用至关重要。
消融实验也证明了系统中每个组件的必要性,特别是回环闭合,它显著减少了累积误差,是实现公里级精确重建的关键。
论文贡献与价值
- 突破尺度限制: 提出VGGT-Long系统,成功将基于基础模型的单目3D重建扩展到公里级长序列,解决了现有方法的关键瓶颈。
- 零成本扩展: 该方法无需任何模型重训练、相机标定或深度真值,即可直接应用于新的长视频序列,具有极强的泛化性和易用性。
- 性能卓越且高效: 在多个大规模自动驾驶数据集上,实现了与传统方法相媲美的性能,同时保持了近乎实时的运行效率。
- 推动实际应用: 该研究展示了利用基础模型进行可扩展、高精度单目3D场景重建的巨大潜力,尤其是在自动驾驶等真实世界场景中,为低成本、纯视觉的建图与定位方案铺平了道路。
- 代码开源: 研究团队已将代码开源,将极大地推动社区在这一方向上的进一步发展。
总而言之,VGGT-Long是一项优雅而实用的工作,它没有去设计一个更庞大、更复杂的网络,而是通过一套巧妙的系统级设计,释放了现有3D基础模型的全部潜力,为大规模单目3D重建这一难题提供了令人信服的解决方案。
#HybridTM
鱼与熊掌亦可兼得,Transformer与Mamba混合模型登顶3D语义分割
在3D语义分割领域,Transformer以其强大的全局注意力机制(Attention)著称,能够有效捕捉长距离依赖关系,但其二次方计算复杂度在处理大规模点云时显得力不从心。而新兴的Mamba架构,凭借其线性复杂度的状态空间模型(SSM),在处理长序列数据时展现出极高的效率,但在3D特征提取的表示能力上有所欠缺。如何将二者的优势结合起来,一直是学界和业界探索的难题。
近日,来自华中科技大学和香港大学的研究者们提出了一种名为HybridTM的全新混合架构,首次将Transformer和Mamba的优势成功融合,应用于3D语义分割任务。该方法不仅在ScanNet、ScanNet200和nuScenes等多个权威基准测试中取得了SOTA(State-of-the-Art)的性能,还通过一种新的层内混合策略(Inner Layer Hybrid Strategy),实现了对长距离依赖和细粒度局部特征的同步捕获。
- 论文标题: HybridTM: Combining Transformer and Mamba for 3D Semantic Segmentation
- 作者团队: Xinyu Wang, Jinghua Hou, Zhe Liu, Yingying Zhu
- 所属机构: 华中科技大学、香港大学
- 论文地址: https://arxiv.org/pdf/2507.18575v1
- 项目地址: https://github.com/deepinact/HybridTM
- 录用信息: IROS 2025
研究背景与意义
3D语义分割是理解3D场景的关键技术,在自动驾驶、机器人、增强现实等领域有着广泛的应用。其目标是为点云中的每一个点分配一个语义标签(如“建筑”、“车辆”、“行人”等)。
近年来,Transformer凭借其强大的全局建模能力,在3D语义分割任务中取得了显著的成功。然而,其核心的自注意力机制需要计算每个点与其他所有点之间的关系,导致计算量和内存消耗随着点云规模的增大而呈二次方增长,这极大地限制了其在动辄包含数百万个点的大规模场景中的应用。
为了解决这一问题,研究者们开始探索更高效的架构。Mamba作为一种新兴的序列建模方法,其线性复杂度使其在处理长序列时具有天然的优势。然而,直接将Mamba应用于3D点云时,其在捕捉局部几何结构和细粒度特征方面的能力又不如Transformer。
因此,如何设计一个能够兼具Transformer的强大表示能力和Mamba的高效计算能力的混合模型,成为了一个极具价值的研究方向。
核心方法:HybridTM
HybridTM的整体架构采用了经典的UNet结构,包含编码器、解码器以及跳跃连接,能够有效处理多尺度的特征。其核心创新在于编码器和解码器中使用的混合层(Hybrid Layer)。
HybridTM 整体架构图
层内混合策略(Inner Layer Hybrid Strategy)
与之前工作尝试在不同层级(inter-layer)或不同分支(parallel)上结合不同模型不同,HybridTM提出了一种更细粒度的层内混合(Inner Layer Hybrid)策略。在一个混合层内部,数据会依次经过注意力模块和Mamba模块,从而实现优势互补。
混合层(Hybrid Layer)结构图
一个混合层的具体流程如下:
- 条件位置编码(xCPE): 首先,通过一个条件位置编码层来增强体素(Voxel)的位置信息。
- 注意力模块(Attention Layer): 接着,将体素划分为多个小的分组(group),在每个分组内应用注意力机制。这样做的好处是,既可以利用注意力机制强大的局部特征提取能力,又可以通过分组操作将计算复杂度控制在可接受的范围内。
- Mamba模块(Mamba Layer): 在注意力模块处理完后,将体素恢复到原始尺寸,并重新划分为几个更大的分组。然后,在这些更大的分组上应用Mamba,利用其线性复杂度的优势来高效地捕捉长距离的全局上下文信息。
- 前馈网络(FFN): 最后,通过一个前馈网络来进一步融合和增强特征。
通过这种“先局部精雕(Attention),后全局总览(Mamba)”的策略,HybridTM成功地在一个统一的层内,以一种高效的方式同时捕获了细粒度的局部特征和长距离的全局依赖。
不同混合策略的对比,证明了层内混合(Inner Layer Hybrid)的优越性
实验结果与分析
研究者在多个大规模室内和室外3D点云数据集上对HybridTM进行了全面的评估。
HybridTM在室内外数据集上均超越现有基于Transformer、3D稀疏卷积和Mamba的方法
实验结果表明,HybridTM在所有测试的数据集上都取得了SOTA的性能,显著优于之前基于Transformer或Mamba的单一模型。
SCANNET验证集结果
HybridTM在ScanNet验证集上以77.8% mIoU刷新SOTA记录,较Point Transformer v3[14]提升0.3%,较Swin3D[11]和Serialized Point Mamba[26]分别提升2.3%和1.0%,展现了其在3D语义分割领域的突破性性能。
ScanNet200验证集结果
HybridTM在更复杂的ScanNet200验证集上以36.5% mIoU再创SOTA,较Point Transformer V3和OctFormer分别领先1.3%和3.9%。
nuScenes验证集结果
HybridTM在室外大规模数据集上以80.9% mIoU取得最优结果,较Point Transformer v3和SphereFormer分别提升0.7%和1.4%。
S3DIS验证集结果
HybridTM在小规模数据集上获得72.1% mIoU,较Serialized Point Mamba[26]提升1.5%,验证了其泛化能力。
消融实验也充分验证了混合层中每个组件的有效性。去掉注意力模块或Mamba模块都会导致性能下降,证明了二者结合的必要性和互补性。
混合层中各组件的有效性分析
定性可视化结果也直观地展示了HybridTM的优势。相比于基线模型,HybridTM能够生成更完整、更精确的语义分割结果,尤其是在处理一些细小的或者远距离的物体时,表现得更加出色。
与Point Transformer V3的可视化对比,HybridTM在细节和完整性上表现更优
论文贡献与价值
HybridTM的提出,为3D语义分割乃至更广泛的3D视觉领域带来了重要的贡献:
- 开创性的混合架构:首次成功地将Transformer和Mamba在层内级别进行融合,为如何结合不同架构的优势提供了一个全新的、有效的范例。
- SOTA性能: 在多个具有挑战性的基准上刷新了记录,为3D语义分割任务树立了新的性能标杆。
- 高效与强大的平衡: 通过巧妙的设计,实现了计算效率和模型性能的完美平衡,使得处理大规模点云成为可能。
- 开源贡献:研究团队承诺将开源代码,这将极大地促进社区对混合架构的研究,并为相关应用提供强大的工具。
总而言之,HybridTM不仅是一个性能卓越的3D语义分割模型,更重要的是,它展示了一条如何博采众长、融合不同AI模型优势的创新之路。
#Dens3R
终结几何孤岛,阿里提出统一3D几何预测基础模型
在密集的3D重建领域,尽管技术日新月异,但如何实现统一且精确的几何预测,一直是悬而未决的核心挑战。现有方法大多“各自为战”,孤立地从图像中预测深度、表面法线或点云等单一几何量。然而,这些几何属性在物理世界中本就紧密耦合,孤立的预测不仅难以保证结果的一致性,也限制了最终的精度和实用性。
针对这一痛点,来自阿里巴巴集团和上海交通大学的研究者们提出了Dens3R,一个专为联合几何密集预测而生的3D基础模型。它通过一个统一的框架,显式地建模不同几何属性间的结构关联,实现了从单视角到多视角输入的高度一致且精确的几何感知。
- 论文标题: Dens3R: A Foundation Model for 3D Geometry Prediction
- 作者: Xianze Fang, Jingnan Gao, Zhe Wang, Zhuo Chen, Xingyu Ren, Jiangjing Lv, Qiaomu Ren, Zhonglei Yang, Xiaokang Yang, Yichao Yan, Chengfei Lv
- 机构: 阿里巴巴集团;上海交通大学
- 论文地址: https://arxiv.org/pdf/2507.16290v1
- 项目主页: https://g-1nonly.github.io/Dens3R/
- 代码地址: https://github.com/G-1nOnly/Dens3R
研究背景与方法
Dens3R的核心思想是构建一个统一的骨干网络,该网络能够逐步学习到一个既具有泛化能力又具备内在不变性(intrinsic-invariant)的点云图表示(pointmap representation),并在此基础上联合预测多个几何量。为此,研究者设计了一个包含轻量级共享编解码器和多个任务特定头的架构,并采用了一个巧妙的两阶段训练策略。
第一阶段:学习尺度不变的点云图
在第一阶段,模型通过强制执行多视角间的跨视图映射一致性,学习到一个尺度不变的点云图。这意味着模型理解了场景的相对结构,但这个阶段的几何信息还不够精细。如下图所示,直接从这个阶段的点云图推导出的法线信息是不够准确的。
第二阶段:学习内在不变的点云图
在第二阶段,模型引入了表面法线的预测,并利用“一对一”的对应关系约束,将表示从“尺度不变”提升为“内在不变”。这使得点云图不仅包含了场景结构,还蕴含了更丰富的表面几何细节。
为了增强模型对高分辨率输入的鲁棒性和表达能力,Dens3R还引入了位置插值旋转位置编码(position-interpolated rotary positional encoding)。基于这个统一且强大的骨干网络,可以无缝集成额外的几何预测头和下游任务分支,展现了其作为基础模型的巨大潜力。
实验结果与分析
大量的实验证明了Dens3R在多种密集3D预测任务上的卓越性能。
表面法线预测:无论是在室内还是室外场景,Dens3R生成的法线图都比先前的方法更准确、更富细节。如下图所示,它甚至能为反光表面和背景区域预测出准确的法线。
量化指标也证实了这一点,Dens3R在平均和中值角度误差上均取得了SOTA(State-of-the-art)或次优的成绩。
单目深度预测:在单目深度预测任务上,Dens3R同样表现出色,在相对点误差(REL)、均方根误差(RMSE)以及inliers比例等多项关键指标上都名列前茅。
图像匹配:作为一个基础模型,其学习到的特征也应具备强大的匹配能力。在ZEB数据集上的图像匹配基准测试中,Dens3R在几乎所有AUC指标上都超越了之前的方法。
论文贡献与价值
- 提出3D基础模型Dens3R: 首次提出了一个专为联合几何密集预测设计的3D基础模型,能够同时、一致地预测深度、法线等多个几何量。
- 创新的两阶段训练框架: 通过两阶段训练,逐步构建了一个从尺度不变到内在不变的强大几何表示,有效解决了多任务学习中的一致性问题。
- 性能卓越: 在表面法线预测、单目深度预测、图像匹配等多个基准测试中取得了SOTA性能,验证了其作为基础模型的有效性和泛化能力。
- 广泛的应用潜力: Dens3R作为一个通用的骨干网络,可以轻松扩展到各种下游应用,为3D视觉领域的诸多任务提供了一个坚实的基础。
- 代码与项目开源: 研究团队开源了代码和项目主页,将极大地促进社区在统一3D几何感知方向的研究。
总而言之,Dens3R通过其创新的统一框架和两阶段训练策略,为解决密集3D重建中的核心挑战——几何一致性问题,提供了一个强有力的答案,并为未来的3D视觉研究和应用奠定了坚实的基础。
#SGCDet
浙大等提出 :自适应3D体素构建,重新定义多视图室内3D检测
多视图室内3D目标检测是实现场景理解、增强现实和机器人导航的关键技术。然而,如何高效且准确地将多张2D图像信息“提升”到3D空间,一直是该领域的瓶颈。传统方法通常采用固定的投影方式构建3D体素(Voxel),这不仅计算冗余,而且限制了特征的表达能力。
近日,一篇被计算机视觉顶级会议ICCV 2025接收的论文《Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction》提出了一种全新的解决方案。该研究由浙江大学、浙大宁波理工学院和香港城市大学的研究者们共同完成,他们提出了一个名为SGCDet的新型框架。该框架通过自适应3D体素构建,巧妙地解决了上述难题,在ScanNet、ScanNet200和ARKitScenes等多个权威数据集上均取得了SOTA(State-of-the-Art)的性能。
- 论文标题: Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction
- 作者团队: Runmin Zhang, Zhu Yu, Si-Yuan Cao, Lingyu Zhu, Guangyi Zhang, Xiaokai Bai, Hui-Liang Shen
- 所属机构: 浙江大学、浙大宁波理工学院、香港城市大学
- 论文地址: https://arxiv.org/pdf/2507.18331v1
- 项目地址: https://github.com/RM-Zhang/SGCDet
- 录用会议: ICCV 2025
研究背景与意义
在多视图3D目标检测任务中,核心步骤是将从不同2D视角拍摄的图像特征,转换并融合到统一的3D空间中,形成所谓的“3D体素(3D Volume)”。过去的许多方法,如ImVoxelNet,通常是将3D空间中的每个体素中心点,直接投影回2D图像的固定位置来提取特征。
这种方法的弊端显而易见:
- 感受野受限: 一个3D体素只能从2D图像上的一个固定点采样特征,忽略了该点周围丰富的上下文信息。
- 计算冗余: 无论是物体表面还是空无一物的自由空间,所有体素都被同等对待,导致大量计算资源被浪费在无效区域。
SGCDet正是为了解决这两个核心痛点而设计的。
传统稠密体素构建(c)与SGCDet的稀疏体素构建(d)对比
核心方法:SGCDet
SGCDet的创新之处在于其“自适应”的体素构建方式,它包含两个核心模块:几何与上下文感知聚合模块,以及稀疏体素构建策略。
SGCDet框架概览图
1. 几何与上下文感知聚合模块 (Geometry and Context Aware Aggregation)
为了解决感受野受限的问题,研究者设计了这个模块,它包含两个关键部分:
- 帧内特征采样(Intra-view Feature Sampling): 传统方法将3D体素投影到2D图像的一个固定点,而SGCDet则引入了可变形注意力机制(Deformable Attention)。这使得每个3D体素在投影到2D图像后,能够自适应地在投影点周围的多个位置进行采样。这就像让体素拥有了“主动观察”的能力,可以根据需要去“看”周围的上下文信息,从而获得更丰富、更具代表性的特征。
帧内特征采样示意图:绿色点为固定投影点,红色点为自适应的采样点
- 多视图注意力(Multi-view Attention): 对于同一个3D体素,不同视角的图像对其可见性、清晰度都不同。该模块能动态地评估并调整来自不同视图的特征贡献权重,让信息更可靠的视图拥有更高的话语权,从而优化最终融合的体素特征。
2. 稀疏体素构建策略 (Sparse Volume Construction)
为了解决计算冗余的问题,SGCDet采用了一种由粗到精(Coarse-to-Fine)的稀疏构建策略。
- 占用概率预测: 首先,网络会初步构建一个粗糙的3D体素,并训练一个占用预测网络(Occupancy Prediction Network)来判断每个体素是属于“自由空间”还是“可能被物体占据”。
- 聚焦精炼: 然后,网络会只选择那些占用概率高的体素,集中计算资源对它们进行特征精炼(即执行更复杂的几何与上下文感知聚合)。
通过这种方式,大量的计算被从空旷区域中解放出来,使得模型能够更高效地运行,同时将“算力”用在刀刃上。
稀疏体素构建可视化:模型能有效过滤掉自由空间,聚焦于物体所在的区域进行特征细化
更值得一提的是,整个网络的监督仅需3D边界框(Bounding Box)真值,无需依赖难以获取的场景几何(如稠密深度图)真值,这大大增强了其在实际应用中的便利性。
实验结果与分析
SGCDet在多个主流室内3D目标检测数据集上都展现了卓越的性能。
ScanNet数据集的定量结果和计算成本
ScanNet200数据集的定量结果
在ARKitScenes数据集上的性能对比
大量的消融实验也验证了SGCDet中各个创新模块的有效性。例如,实验证明,同时使用可变形注意力和多视图注意力,比单独使用任何一个的效果都要好。稀疏体素构建策略也被证明能够在不牺牲甚至提升精度的前提下,有效提高模型的运行效率。
几何与上下文感知聚合模块的消融实验
不同方法的定性结果对比,SGCDet能更准确地检测出物体
论文贡献与价值
SGCDet的提出,为多视图室内3D目标检测领域带来了显著的推动作用:
- 范式创新: 提出了一个全新的自适应3D体素构建框架,打破了传统固定感受野的限制。
- 有效且高效: 通过几何与上下文感知聚合模块提升了特征质量,通过稀疏体素构建策略提升了计算效率,实现了“鱼与熊掌兼得”。
- SOTA性能: 在三大权威基准上均取得了当前最佳性能,为该领域树立了新的标杆。
- 实用性强: 仅需3D Bbox监督,降低了对数据标注的要求,且代码已开源,便于社区研究和应用。
总而言之,SGCDet通过其精巧的自适应设计,为如何从多视图2D图像中高效、准确地构建3D世界表征,提供了一个极具启发性的答案。
#MuStD
融合激光雷达与相机的3D检测新SOTA
在自动驾驶和机器人技术中,精确感知周围环境是实现安全可靠运行的基石。其中,3D目标检测,即在三维空间中识别并定位物体(如车辆、行人),是核心挑战之一。为了提升检测精度,融合激光雷达(LiDAR)提供的精确深度信息和相机提供的丰富纹理信息,已成为业界共识。
本文介绍一篇收录于 IROS 2025 的论文《Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes》。该研究由西澳大学和墨尔本大学的研究者们提出,设计了一种名为 MuStD (MultiStream Detection) 的多流网络,旨在高效、精细地融合两种模态数据,在著名的KITTI数据集上取得了新的SOTA或极具竞争力的结果。
- 论文标题: Multistream Network for LiDAR and Camera-based 3D Object Detection in Outdoor Scenes
- 作者: Muhammad Ibrahim, Naveed Akhtar, Haitian Wang, Saeed Anwar, Ajmal Mian
- 机构: 西澳大学;墨尔本大学
- 论文地址: https://arxiv.org/pdf/2507.19304v1
- 项目代码: https://github.com/IbrahimUWA/MuStD.git
- 录用会议: IEEE/RSJ IROS 2025 (Oral Presentation)
研究背景与意义
户外3D目标检测任务中,LiDAR和相机是两种最主流的传感器。LiDAR通过发射激光束来测量距离,能够生成精确的3D点云,为物体提供准确的空间几何信息,但其点云数据通常是稀疏的,且缺乏颜色和纹理细节。相反,RGB相机能够捕捉到高分辨率的图像,包含丰富的颜色、纹理信息,有助于物体分类,但从2D图像中精确推断3D位置和尺寸非常困难。
因此,如何有效融合这两种互补的数据源,一直是研究的热点和难点。早期的融合方法通常较为简单,例如将点云投影到图像上进行特征拼接,但这往往不能充分利用两种模态的内在优势。本文提出的MuStD网络,正是为了解决这一深度融合问题,旨在从两种数据中精心提取与检测任务最相关的信息。
MuStD:三流并行的精细化融合架构
MuStD网络的核心是一个并行的三流(three-stream)结构,分别处理LiDAR数据和多模态数据,最后进行高效融合。
上图展示了MuStD的整体架构,包含三个并行的数据处理流:
LiDAR-PillarNet流:
该分支借鉴了PillarNet的思想,将LiDAR点云数据转换为稀疏的2D“柱状”特征(pillar features)。这种方式在保留关键高度信息的同时,将3D问题转化为2D问题,能高效地利用2D卷积网络进行特征提取。
LiDAR-Height Compression流:
该分支首先使用3D稀疏卷积处理原始LiDAR点云,以提取丰富的3D几何特征。随后,通过一个高度压缩模块(height compression block)将3D特征图沿Z轴(高度方向)聚合,生成鸟瞰图(Bird's-Eye View, BEV)特征。这种方法保留了重要的空间布局信息,同时降低了计算复杂度。
3D多模态 (MM) 流:
这是实现深度融合的关键。该分支同时处理RGB图像和LiDAR点云。它通过 UV映射 将3D LiDAR点与2D图像特征对齐,从而为稀疏的点云赋予丰富的纹理和外观信息。同时,它还引入了 极坐标索引 (polar coordinate indexing) 来编码点的方向和深度信息,增强了几何表示能力。
最终,这三个流提取出的包含全面空间、纹理和几何信息的特征被精心融合在一起,送入一个统一的检测头(Detection Head),完成最终的3D目标检测任务。
实验与结果分析
该方法在极具挑战性的KITTI目标检测基准上进行了广泛评估,并使用其官方测试服务器验证了性能。
如下表所示,MuStD在Car类别的2D、3D和BEV检测任务中,无论是在简单(Easy)、中等(Moderate)还是困难(Hard)样本上,均取得了SOTA或极具竞争力的结果。
下图更直观地展示了MuStD在精度和速度上的权衡。红星代表的MuStD在实现了卓越检测精度的同时,保持了具有竞争力的推理速度,展示了其高效性。
KITTI数据集上推理时间(ms)与目标检测精度(AP)的比较,标记为红星的MuStD在保持竞争性推理速度的同时实现了卓越的准确性。
KITTI测试集2D车辆检测与方向估计结果分析
上表对比数据显示:
- 在中等(Moderate)和高(Hard)难度级别下,所提出方法在2D检测和车辆方向估计两项任务上均超越现有最优方法
- 在简单(Easy)难度下,所提出方法性能与最优方法相当
- 整体平均精度(mAP)在两项任务中均保持领先
这些结果充分证明了所提出方法在处理具有挑战性的场景(如存在遮挡或远距离物体)时的卓越性能。
上图直观展示了三个难度等级下的精确率-召回率曲线和方向相似度曲线。值得注意的是,所提出方法在保持50毫秒极快推理速度的同时,其精度表现远超同类竞争方法(如VirConv-T和SDF等)。
KITTI数据集3D与鸟瞰图(BEV)检测结果
上表对比了所提出方法在KITTI测试集上的3D和鸟瞰图检测性能(服务器生成结果)与现有最优方法。提出的MuStD网络在3D和BEV车辆检测的Hard难度类别中均取得最佳性能。
上图展示的精确率-召回率曲线进一步表明,所提出方法在不同召回率水平下均保持高精度,充分体现了多模态融合策略的优势。
KITTI数据集多类别检测结果
结果表明,所提出方法在三类目标检测上均持续超越对比方法,证明其能同等有效地捕捉复杂城市场景中大小物体的几何结构与空间纹理特征。
消融研究
此外,论文还通过消融实验证明了每个流以及多模态融合策略的有效性。实验结果表明,三个流的组合以及精细的融合策略对于最终的高性能至关重要。
论文贡献与价值
- 提出MuStD网络: 设计了一种新的三流并行网络架构,能够从LiDAR和相机数据中精细地提取和融合互补特征。
- 创新的多模态融合: 3D多模态流中使用的UV映射和极坐标索引为点云和图像的特征级深度融合提供了有效的新思路。
- SOTA性能: 在KITTI基准上取得了顶尖的3D目标检测性能,同时兼顾了较高的运行效率,为自动驾驶等实际应用提供了强大的技术方案。
- 代码开源: 承诺将发布代码,这将极大地便利社区的研究者们进行复现和在此基础上的进一步探索。
总而言之,MuStD通过其精心设计的多流架构,为LiDAR与相机数据的融合提供了一个高效且强大的解决方案,在推动户外3D目标检测技术发展方面迈出了坚实的一步。