KITTI数据集是由德国卡尔斯鲁厄理工学院 Karlsruhe Institute of Technology (KIT) 和美国芝加哥丰田技术研究院 Toyota Technological Institute at Chicago (TTI-C) 于2012年联合创办,是目前国际上最为常用的自动驾驶场景下的计算机视觉算法评测数据集之一。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI数据集包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。 KITTI数据集针对3D目标检测任务提供了14999张图像以及对应的点云,其中7481组用于训练,7518组用于测试,针对场景中的汽车、行人、自行车三类物体进行标注,共计80256个标记对象。
一、核心任务 1:视觉 / 激光雷达里程计(Odometry)
里程计任务的核心是评估算法通过传感器数据(图像、LiDAR)估计车辆相对位姿(平移 + 旋转) 的精度,重点关注累计误差。KITTI 提供了 00-10 共 11 个序列的标注(包含真实轨迹的 6DoF 位姿),评价指标分为平移误差(Translational Error) 和旋转误差(Rotational Error) ,且按不同轨迹长度(段)统计,以反映误差随距离的累积特性。
1. 平移误差(关键指标)
衡量估计轨迹与真实轨迹在三维空间中的位置偏差,通常以 “每 100 米轨迹的平均平移误差” 为核心报告指标,具体计算方式如下:
- 公式:对轨迹中连续的关键帧,计算估计位置 T^i 与真实位置 Ti 的欧氏距离,再按轨迹段长度(如 10m、20m、50m、100m、200m、500m)统计平均误差。
- 报告形式:
- 表格中常以 t100m(每 100 米平均平移误差,单位:m)作为核心指标,误差越小表示精度越高;
- 同时提供不同段长(如 10m→500m)的误差曲线,反映误差累积速度(如 SLAM 算法的漂移程度)。
2. 旋转误差
衡量估计轨迹与真实轨迹在姿态(角度)上的偏差,同样按轨迹段长度统计:
- 公式:计算估计旋转矩阵 R^i 与真实旋转矩阵 Ri 的夹角(通过矩阵迹运算:θ=arccos(2tr(R^iTRi)−1)),再转换为 “每 100 米轨迹的平均旋转误差”(单位:°/100m)。
- 意义:旋转误差直接影响车辆航向估计的准确性,对路径规划和避障至关重要。
3. 轨迹可视化
除数值指标外,KITTI 要求将估计轨迹与真实轨迹在三维 / 二维平面(如 x-y 平面)叠加可视化,直观展示算法的漂移趋势(如是否随距离逐渐偏离真实轨迹)。
二、核心任务 2:3D 目标检测(3D Object Detection)
3D 目标检测的核心是评估算法从传感器数据中检测并定位三维目标(如汽车、行人、 cyclists) 的精度,需同时考虑 “检测是否准确” 和 “定位是否精准”,KITTI 采用平均精度(Average Precision, AP) 作为核心指标,并按目标类别和难度分级。
1. 目标类别与难度分级
KITTI 将目标分为 3 类,且每类按 “遮挡程度” 和 “截断程度” 分为 3 个难度等级(Easy/Moderate/Hard):
- 类别:Car(汽车)、Pedestrian(行人)、Cyclist(骑行者);
- 难度标准:
- Easy:遮挡率<10%,截断率<15%;
- Moderate:遮挡率 10%-40%,截断率 15%-40%;
- Hard:遮挡率 40%-60%,截断率 40%-50%(最接近真实复杂场景)。
2. 核心指标:3D AP 与 BEV AP
KITTI 不直接使用 2D 检测的 IoU(交并比),而是定义3D IoU 和 BEV IoU(鸟瞰图 IoU),并基于此计算 AP:
- 3D IoU:计算预测的 3D bounding box 与真实 3D bounding box 的体积交并比(反映三维空间中的定位精度);
- BEV IoU:将 3D bounding box 投影到地面平面(x-y 平面),计算投影后 2D 框的面积交并比(反映平面位置精度,对自动驾驶路径规划更关键);
- AP 计算:
- 对每个类别和难度,按 “预测置信度” 从高到低排序检测结果;
- 设定 IoU 阈值(KITTI 标准:Car→0.7,Pedestrian/Cyclist→0.5),统计 “真阳性(TP)” 和 “假阳性(FP)”;
- 绘制 “精确率 - 召回率(Precision-Recall, PR)曲线”,计算 PR 曲线下的面积(即 AP)。
- 报告形式:需分别报告 3 类目标在 3 个难度等级下的 3D AP 和 BEV AP,AP 越高表示检测与定位精度越好(如 “Car Moderate 3D AP=85%” 表示汽车中等难度场景下的 3D 检测平均精度为 85%)。
3. 辅助指标:定位误差
除 AP 外,KITTI 还会统计3D bounding box 的定位误差,包括:
- 平移误差(Δx, Δy, Δz):预测框中心与真实框中心在 x/y/z 轴上的偏差(单位:m);
- 旋转误差(Δθ):预测框航向角与真实框航向角的偏差(单位:°);
- 尺寸误差(Δl, Δw, Δh):预测框长 / 宽 / 高与真实框的偏差(单位:m)。
三、核心任务 3:立体匹配(Stereo Matching)
立体匹配的核心是评估算法从双目图像中计算视差图(Disparity Map) 的精度(视差用于推导深度),KITTI 提供了高分辨率双目图像的真实视差标注(通过 LiDAR 数据校准),评价指标聚焦 “视差估计误差”。
1. 核心指标:视差误差率(Disparity Error Rate)
统计 “估计视差与真实视差的偏差超过阈值” 的像素比例,按像素的 “有效性” 和 “视差范围” 分级:
- 有效像素定义:排除遮挡区域、无纹理区域、边界区域等 “无效像素”,仅统计 “有效像素” 的误差;
- 误差阈值:
- 相对误差:d∣d^−d∣>0.05(d 为真实视差,d^为估计视差);
- 绝对误差:∣d^−d∣>3(单位:像素);
- 满足任一阈值即判定为 “误差像素”。
- 报告形式:按视差范围(如 d<10、10≤d<20、d≥20)统计误差率,误差率越低表示视差估计越精准。
2. 辅助指标:平均绝对误差(MAE)
计算所有有效像素的 “估计视差 - 真实视差” 的绝对值的平均值,反映整体视差估计的偏差程度(单位:像素)。
四、其他任务的评价指标
KITTI 还支持光流估计、语义分割等任务,其指标与领域通用标准一致:
- 光流估计:采用端点误差(Endpoint Error, EPE)—— 估计光流向量与真实光流向量的欧氏距离,统计平均 EPE 和 EPE>3 的像素比例;
- 语义分割:采用交并比(mIoU,均值交并比)—— 计算每个类别的 IoU,再取所有类别的平均值,反映分割结果与真实标签的重合度。