这几年一直在关注自动驾驶3D目标检测相关的研究。在NuScenes数据集上有很多经典的模型被提出并得到了验证,纯视觉3D目标检测经典的方法有BEVFormer、BEVDet系列、DETR3D、Sparse4D等工作,基于LiDAR的有CenterPoint、多模态有BEVFusion、DAL、UniTR等。
NuScenes数据集除了有图像和LiDAR数据之外,还提供了Radar传感器数据。但是在NuScenes目标检测榜单上,关于Radar的研究方法很少,最新的方法是RadarDistill,借助LiDAR进行知识蒸馏提高Radar表征能力。其实Radar被用在车上要比LiDAR早很多,ACC和AEB功能都使用到了Radar。
基于此,本文训练了一个长时序的Radar检测模型,RadarDet4D。模型结构和PointPillars类似,只需要把历史帧的点云数据对齐到当前帧就行。
模型在训练集上共训练了36轮,实测下来到第12轮的时候模型性能就基本饱和了,在测试集上进行了推理,结果如下。mAP/NDS是19.06和41.08,暂时未列NuScenes数据集Radar模态目标检测第二名。
下面是和SOTA方法的对比,尽管本文使用了多帧融合的方法但是感知精度上还是不如RadarDistill,不过由于融合了多帧信息,以及Radar本身具有测速能力,在mAVE指标上RadarDet4D还是好于RadarDistiil。
Method | mAP | NDS | mATE | mASE | mAOE | mAVE | mAAE |
---|---|---|---|---|---|---|---|
RadarDistill | 20.5 | 43.7 | 0.461 | 0.263 | 0.525 | 0.336 | 0.072 |
RadarDet4D | 19.1 | 41.1 | 0.545 | 0.302 | 0.643 | 0.283 | 0.072 |
本文的主要目的是提供一个baseline供大家去研究,探索出更多新的Radar感知模型。还有许多其它优秀的代码库大家也可以去研究,例如CRN,RCBEVDet,RICCARDO,这些虽然是camera和radar融合的方法,大家可以只关注Radar分支模型设计。