UniAD

1. 算法动机及开创性思路

1）UniAD算法简介

算法全称：Planning-oriented Autonomous Driving
核心特点：
- 统一框架整合感知、预测、规划模块
- CVPR 2023最佳论文
- 采用查询(query)方式连接各模块
名称含义：
- Unified：统一多模块的联合框架
- AD：自动驾驶(Autonomous Driving)

2）算法动机

传统方案问题：
- 独立模型方案：各任务独立网络导致信息丢失、错误累积、特征不对齐
- 多任务学习方案：任务间负迁移（对任务A有利的特征可能损害任务B）
- 早期端到端方案：
  - 直接规划方案：缺乏安全保障和可解释性
  - 简单模块组合：未充分验证模块有效性

3）开创性思路

研究创新：
- 首个全面整合感知、预测、规划的联合训练框架
- 采用Transformer查询机制连接模块
技术优势：
- 查询机制：相比CNN具有更大感受野，减少上游误差累积
- 规划导向：所有子模块服务于最终规划决策
- 特征对齐：通过统一框架解决特征misalignment问题

2. 主体结构

1）UniAD整体结构

在这里插入图片描述

模块组成：
- 特征提取与转换
- 感知模块（跟踪+建图）
- 预测模块（运动+占据）
- 规划模块

2）输入与输出

输入：多视角视觉图像（纯视觉方案）
输出：自车运动轨迹（Ego-vehicle Query）

3）特征提取与转换

BEV Former技术：
- 主车中心划定区域，网格化处理
- Z轴划分4个格子
- 通过deformable attention获取特征
- 融合前一帧BEV特征

4）感知模块

跟踪模块
- 双任务设计：
  - 目标检测：采用Deformable DETR
    - 学习参考点offset降低计算量
  - 多目标跟踪：采用MOTR
    - 解决物体消失/出现的问题
    - 动态切换检测/跟踪query
建图模块
- 全景分割：
  前景：实例分割（车道/人行道）
  背景：语义分割（可行驶区域）
- 查询改造：
  Thing queries → 车道边界/人行横道
  Stuff queries → 可行驶区域

5）预测模块

运动预测
- 输入特征：
  - 当前物体位置（来自跟踪模块）
  - 6类典型轨迹（K-means聚类得到）
  - 自车坐标系/全局坐标系轨迹
  - 上层输出轨迹
- 三路交互：
  - Agent-Agent：历史轨迹交互
  - Agent-Map：交通规则约束
  - Agent-BEV：环境特征交互
占据预测
- 时序预测：
  - 输入：跟踪特征+运动预测特征+位置特征
  - 输出：t0-t4五帧占据概率
- 特征处理：
  - BEV特征1/4下采样→1/8下采样
  - 交叉注意力机制生成mask
  - MLP解码得到最终概率

6）规划模块

在这里插入图片描述

输入组成：
- 导航指令（如"左转"）
- BEV特征
- Ego-vehicle查询（交互特征）
- MotionFormer特征
轨迹优化：
- 推理阶段使用牛顿法优化
- 考虑占据预测结果避障

3. 损失函数

在这里插入图片描述

两阶段训练：
- 阶段一：仅训练感知模块
- 阶段二：全模块训练
规划损失：
- 轨迹点回归损失
- 碰撞损失（避障约束）
运动预测：
- 6模态轨迹分类损失
- 轨迹回归损失

4. 性能对比

1）整体性能消融实验

模块交互性：上游模块对下游模块有正向影响，同时下游模块也会反哺上游模块性能提升
追踪模块表现：AMOTAT、AMOTPI、Recall三个指标在完整模型下均达到最高分
建图模块特点：单独建图模块性能优于多任务干扰下的建图性能
运动预测最佳状态：在没有规划模块时，minADE、minFDE、MR三个指标达到最佳
规划模块效果：完整模型下L2 loss和碰撞率达到最优平衡

2）建图性能

在这里插入图片描述

车道线检测优势：UniAD在车道线检测指标(Lanest)上达到31.3，显著优于LSS(18.3)和VPN(18.0)
多任务平衡：虽然单独建图模块性能更好，但完整系统在可行驶区域(Drivablet)等指标上取得69.1的平衡表现
模块协同效应：下游规划模块会反向提升建图模块的交叉口识别能力(Crossingt 13.8)

3）运动预测对比

绝对优势：minADE(0.71m)和minFDE(1.02m)远超第二名的PnPNet(1.15m/1.95m)
对比基准：优于恒定位置(5.80m/10.27m)和恒定速度(2.13m/4.01m)预测方法
关键指标：MR(0.151)和EPAT(0.456)显示其预测轨迹更符合人类驾驶习惯

4）占据预测对比

在这里插入图片描述

双指标领先：在IoU-n.t(63.4)和VPQ-n.(54.7)两个核心指标上最佳
模块贡献度：
Cross Attention交互模块使IoU-n.提升1.4%
Mask特征融合模块使VPQ-n.提升1.2%
非线性优化策略最终将综合性能提升至最优

5）规划对比

在这里插入图片描述

轨迹精度：3秒平均L2误差(1.03m)比第二名FF(1.43m)降低28%
安全性：平均碰撞率(0.31%)显著低于ST-P3(0.71%)等传统方法
实时性：在狭窄道路场景仍能保持1.65m的3秒轨迹误差

6）可视化效果展示

在这里插入图片描述

指令响应：前进指令时关注前方道路区域，左转指令时注意力明显左移
多视角融合：六摄像头输入与BEV视角的规划轨迹保持空间一致性
异常处理：即使感知模块暂时丢失障碍物(2帧)，规划模块仍能通过特征关注避免碰撞

7）失败案例分析

在这里插入图片描述

尺寸估计误差：对大型拖车(长12m+)的尺寸和角度估计存在明显偏差
环境敏感性：黑暗环境中对逆向车辆产生过度避让(实际可保持直线行驶)
改进方向：调整碰撞损失权重和道路边界约束可缓解30%的异常规划

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/94127.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/94127.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！