1. 算法动机及开创性思路
1)UniAD算法简介
- 算法全称:Planning-oriented Autonomous Driving
- 核心特点:
- 统一框架整合感知、预测、规划模块
- CVPR 2023最佳论文
- 采用查询(query)方式连接各模块
- 名称含义:
- Unified:统一多模块的联合框架
- AD:自动驾驶(Autonomous Driving)
2)算法动机
- 传统方案问题:
- 独立模型方案:各任务独立网络导致信息丢失、错误累积、特征不对齐
- 多任务学习方案:任务间负迁移(对任务A有利的特征可能损害任务B)
- 早期端到端方案:
- 直接规划方案:缺乏安全保障和可解释性
- 简单模块组合:未充分验证模块有效性
3)开创性思路
- 研究创新:
- 首个全面整合感知、预测、规划的联合训练框架
- 采用Transformer查询机制连接模块
- 技术优势:
- 查询机制:相比CNN具有更大感受野,减少上游误差累积
- 规划导向:所有子模块服务于最终规划决策
- 特征对齐:通过统一框架解决特征misalignment问题
2. 主体结构
1)UniAD整体结构
- 模块组成:
- 特征提取与转换
- 感知模块(跟踪+建图)
- 预测模块(运动+占据)
- 规划模块
2)输入与输出
- 输入:多视角视觉图像(纯视觉方案)
- 输出:自车运动轨迹(Ego-vehicle Query)
3)特征提取与转换
- BEV Former技术:
- 主车中心划定区域,网格化处理
- Z轴划分4个格子
- 通过deformable attention获取特征
- 融合前一帧BEV特征
4)感知模块
-
跟踪模块
- 双任务设计:
- 目标检测:采用Deformable DETR
- 学习参考点offset降低计算量
- 多目标跟踪:采用MOTR
- 解决物体消失/出现的问题
- 动态切换检测/跟踪query
- 目标检测:采用Deformable DETR
- 双任务设计:
-
建图模块
-
全景分割:
前景:实例分割(车道/人行道)
背景:语义分割(可行驶区域) -
查询改造:
Thing queries → 车道边界/人行横道
Stuff queries → 可行驶区域
-
5)预测模块
-
运动预测
- 输入特征:
- 当前物体位置(来自跟踪模块)
- 6类典型轨迹(K-means聚类得到)
- 自车坐标系/全局坐标系轨迹
- 上层输出轨迹
- 三路交互:
- Agent-Agent:历史轨迹交互
- Agent-Map:交通规则约束
- Agent-BEV:环境特征交互
- 输入特征:
-
占据预测
- 时序预测:
- 输入:跟踪特征+运动预测特征+位置特征
- 输出:t0-t4五帧占据概率
- 特征处理:
- BEV特征1/4下采样→1/8下采样
- 交叉注意力机制生成mask
- MLP解码得到最终概率
- 时序预测:
6)规划模块
- 输入组成:
- 导航指令(如"左转")
- BEV特征
- Ego-vehicle查询(交互特征)
- MotionFormer特征
- 轨迹优化:
- 推理阶段使用牛顿法优化
- 考虑占据预测结果避障
3. 损失函数
- 两阶段训练:
- 阶段一:仅训练感知模块
- 阶段二:全模块训练
- 规划损失:
- 轨迹点回归损失
- 碰撞损失(避障约束)
- 运动预测:
- 6模态轨迹分类损失
- 轨迹回归损失
4. 性能对比
1)整体性能消融实验
- 模块交互性:上游模块对下游模块有正向影响,同时下游模块也会反哺上游模块性能提升
- 追踪模块表现:AMOTAT、AMOTPI、Recall三个指标在完整模型下均达到最高分
- 建图模块特点:单独建图模块性能优于多任务干扰下的建图性能
- 运动预测最佳状态:在没有规划模块时,minADE、minFDE、MR三个指标达到最佳
- 规划模块效果:完整模型下L2 loss和碰撞率达到最优平衡
2)建图性能
- 车道线检测优势:UniAD在车道线检测指标(Lanest)上达到31.3,显著优于LSS(18.3)和VPN(18.0)
- 多任务平衡:虽然单独建图模块性能更好,但完整系统在可行驶区域(Drivablet)等指标上取得69.1的平衡表现
- 模块协同效应:下游规划模块会反向提升建图模块的交叉口识别能力(Crossingt 13.8)
3)运动预测对比
- 绝对优势:minADE(0.71m)和minFDE(1.02m)远超第二名的PnPNet(1.15m/1.95m)
- 对比基准:优于恒定位置(5.80m/10.27m)和恒定速度(2.13m/4.01m)预测方法
- 关键指标:MR(0.151)和EPAT(0.456)显示其预测轨迹更符合人类驾驶习惯
4)占据预测对比
- 双指标领先:在IoU-n.t(63.4)和VPQ-n.(54.7)两个核心指标上最佳
- 模块贡献度:
Cross Attention交互模块使IoU-n.提升1.4%
Mask特征融合模块使VPQ-n.提升1.2%
非线性优化策略最终将综合性能提升至最优
5)规划对比
- 轨迹精度:3秒平均L2误差(1.03m)比第二名FF(1.43m)降低28%
- 安全性:平均碰撞率(0.31%)显著低于ST-P3(0.71%)等传统方法
- 实时性:在狭窄道路场景仍能保持1.65m的3秒轨迹误差
6)可视化效果展示
- 指令响应:前进指令时关注前方道路区域,左转指令时注意力明显左移
- 多视角融合:六摄像头输入与BEV视角的规划轨迹保持空间一致性
- 异常处理:即使感知模块暂时丢失障碍物(2帧),规划模块仍能通过特征关注避免碰撞
7)失败案例分析
- 尺寸估计误差:对大型拖车(长12m+)的尺寸和角度估计存在明显偏差
- 环境敏感性:黑暗环境中对逆向车辆产生过度避让(实际可保持直线行驶)
- 改进方向:调整碰撞损失权重和道路边界约束可缓解30%的异常规划