VLM-MPC:自动驾驶中模型预测控制器增强视觉-语言模型

《VLM-MPC: Model Predictive Controller Augmented Vision Language Model for Autonomous Driving》2024年8月发表,来自威斯康星大学的论文。

        受视觉语言模型(VLM)的紧急推理能力及其提高自动驾驶系统可理解性的潜力的启发,本文介绍了一种名为VLM-MPC的闭环自动驾驶控制器,该控制器将模型预测控制器(MPC)与VLM相结合,以评估基于模型的控制如何增强VLM决策。所提出的VLM-MPC由两个异步组件组成:上层VLM根据前置摄像头图像、自我车辆状态、交通环境条件和参考存储器生成驾驶参数(例如,期望速度、期望车头时距),用于下层控制;下级MPC使用这些参数实时控制车辆,考虑发动机滞后并向整个系统提供状态反馈。基于nuScenes数据集的实验验证了所提出的VLM-MPC在各种环境(如夜间、降雨和十字路口)中的有效性。结果表明,与基于VLM的控制造成碰撞风险的某些情况相比,VLM-MPC始终将侵占后时间(PET)保持在安全阈值以上。此外,与现实世界的轨迹和基于VLM的控制相比,VLM-MPC增强了平滑度。通过比较不同环境设置下的行为,我们强调了VLM-MPC理解环境并做出合理推断的能力。此外,我们通过消融测试验证了参考记忆和环境编码器这两个关键组件对响应稳定性的贡献。

1. 研究背景与动机
  • 问题:现有自动驾驶系统(基于规则或学习的方法)存在适应性差、对分布外(OOD)数据鲁棒性不足、响应速度慢等问题,且缺乏可解释性。

  • 解决方案:结合视觉语言模型(VLM)的推理能力和模型预测控制(MPC)的动态优化能力,提出 VLM-MPC 框架,旨在提升自动驾驶的安全性、平滑性和环境适应性。


 

2. 核心贡献
  1. 异步分层架构

    • 上层 VLM:通过环境编码器(提取天气、光照、道路条件)、场景编码器(车辆状态、前车信息)、参考记忆(历史驾驶参数聚合)生成驾驶参数(如目标速度、车距)。

    • 下层 MPC:基于VLM生成的参数和车辆动力学模型(考虑发动机延迟)实时控制车辆,实现高频闭环反馈。

    • 异步机制:VLM以低频(0.2Hz)更新参数,MPC以高频(10Hz)执行控制,解决VLM响应速度慢的问题。

  2. 抗幻觉设计

    • 参考记忆:通过历史数据统计场景平均参数,减少VLM输出不稳定。

    • 环境编码器:利用CLIP模型从摄像头图像中提取环境描述,增强上下文感知。

  3. 实验验证

    • 数据集:基于nuScenes数据集,覆盖雨、夜、交叉路口等复杂场景。

    • 指标

      • 安全性:通过“侵入后时间”(PET)衡量,VLM-MPC在所有场景中PET均高于安全阈值(1秒)。

      • 平滑性:通过加速度均方根(RMSa)衡量,VLM-MPC优于真实轨迹和基线模型(如LLM直接生成动作)。

      • 完成率:VLM-MPC使用Llava 1.6模型完成率达99.7%,GPT系列模型达100%。


3. 实验关键结果
  • 安全性(表4):

    • VLM-MPC在雨天交叉路口等复杂场景中PET值(1.36–1.92秒)显著高于基线模型(如LLM to Action的0.05–2.65秒)。

  • 平滑性(表5):

    • VLM-MPC的RMSa(0.33–0.43 m/s²)接近真实轨迹(0.51–0.68 m/s²),远优于LLM直接控制(0.93–3.13 m/s²)。

  • 消融实验(表7、8):


    • 移除参考记忆(VLM-MPC without M)导致参数偏向高风险(更高速度、更大车距),雨天/夜间平滑性下降。

    • 移除环境编码器(VLM-MPC without E)显著降低完成率(87.5%),因VLM无法理解道路信息。


4. 创新点
  • VLM与MPC的协同:通过分层架构,将VLM的语义推理与MPC的物理约束结合,兼顾决策智能与动态优化。

  • 抗幻觉机制:参考记忆和环境编码器显著提升输出稳定性,减少语言模型常见的不合理生成。

  • 可解释性增强:通过可视化注意力机制(图10),展示VLM在生成参数时对图像关键区域的关注(如道路、障碍物)。


5. 局限与未来方向
  • 局限

    • 实验依赖仿真数据(nuScenes),未覆盖真实场景的动态不确定性。

    • 当前VLM响应时间(Llava 1.6约3.42秒)仍需优化以满足更高频率需求。

  • 未来

    • 模型轻量化:优化参数规模,提升实时性。

    • 真实路测:验证系统在复杂天气、低光照等极端场景的鲁棒性。

    • 多模态扩展:融合雷达、LiDAR等多传感器数据,增强环境感知。


6. 总结

VLM-MPC 通过结合VLM的语义理解和MPC的动态控制,为自动驾驶提供了一种安全、平滑且可解释的解决方案。其分层异步架构和抗幻觉设计有效弥补了纯学习方法的不足,实验验证了其在复杂场景下的优越性,为未来自动驾驶系统的智能化与可靠性提供了重要参考。

 如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/906838.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

推荐系统里真的存在“反馈循环”吗?

推荐系统里真的存在“反馈循环”吗? 许多人说,推荐算法不过是把用户早已存在的兴趣挖掘出来,你本来就爱听流行歌、买潮牌玩具,系统只是在合适的时间把它们端到你面前,再怎么迭代,算法也改变不了人的天性&a…

代码混淆技术的还原案例

案例一 eval 混淆 特征 : 反常的 eval 连接了一堆数据 练习网站 https://scrape.center/ spa9 这个案例 基本的还原方法 但是这个代码还是非常的模糊不好看 优化一下 : 当然还有更快捷的方法 : 好用的 js混淆还原的 web &#xf…

鸿蒙Flutter实战:22-混合开发详解-2-Har包模式引入

以 Har 包的方式加载到 HarmonyOS 工程 创建工作 创建一个根目录 mkdir ohos_flutter_module_demo这个目录用于存放 flutter 项目和鸿蒙项目。 创建 Flutter 模块 首先创建一个 Flutter 模块,我们选择与 ohos_app 项目同级目录 flutter create --templatemodu…

Go核心特性与并发编程

Go核心特性与并发编程 1. 结构体与方法(扩展) 高级结构体特性 // 嵌套结构体与匿名字段 type Employee struct {Person // 匿名嵌入Department stringsalary float64 // 私有字段 }// 构造函数模式 func NewPerson(name string, age int) *Pe…

Java 函数式接口(Functional Interface)

一、理论说明 1. 函数式接口的定义 Java 函数式接口是一种特殊的接口,它只包含一个抽象方法(Single Abstract Method, SAM),但可以包含多个默认方法或静态方法。函数式接口是 Java 8 引入 Lambda 表达式的基础,通过函…

【python代码】一些小实验

目录 1. 测试Resnet50 ONNX模型的推理速度 1. 测试Resnet50 ONNX模型的推理速度 ############################### # 导出resnet50 模型 # 测试onnx模型推理 cpu 和 GPU 的对比 ###############################import time import numpy as np import onnxruntime as ort im…

5.Java 面向对象编程入门:类与对象的创建和使用​

在现实生活中,我们常常会接触到各种各样的对象,比如一辆汽车、一个学生、一部手机等。这些对象都具有各自的属性和行为。例如,汽车有颜色、品牌、型号等属性,还有启动、加速、刹车等行为;学生有姓名、年龄、学号等属性…

从开发者角度看数据库架构进化史:JDBC - 中间件 - TiDB

作者: Lucien-卢西恩 原文来源: https://tidb.net/blog/e7034d1b Java 应用开发技术发展历程 在业务开发早期,用 Java 借助 JDBC 进行数据库操作,虽能实现基本交互,但需手动管理连接、编写大量 SQL 及处理结果集&a…

工业智能网关建立烤漆设备故障预警及远程诊断系统

一、项目背景 烤漆房是汽车、机械、家具等工业领域广泛应用的设备,主要用于产品的表面涂装。传统的烤漆房控制柜采用本地控制方式,操作人员需在现场进行参数设置和设备控制,且存在设备智能化程度低、数据孤岛、设备维护成本高以及依靠传统人…

故障率预测:基于LSTM的GPU集群硬件健康监测系统(附Prometheus监控模板)

一、GPU集群健康监测的挑战与价值 在大规模深度学习训练场景下,GPU集群的硬件故障率显著高于传统计算设备。根据2023年MLCommons统计,配备8卡A100的服务器平均故障间隔时间(MTBF)仅为1426小时,其中显存故障占比达38%&…

Vue 样式不一致问题全面分析与解决方案

文章目录 1. 问题概述1.1 问题表现1.2 问题影响 2. 根本原因分析2.1 Vue 的渲染机制与样式加载时机2.2 Scoped CSS 的工作原理2.3 CSS 模块化与作用域隔离2.4 样式加载顺序问题2.5 热重载(HMR)与样式更新 3. 解决方案3.1 确保样式加载顺序3.1.1 预加载关键 CSS3.1.2 控制全局样…

[免费]微信小程序宠物医院管理系统(uni-app+SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

大家好,我是java1234_小锋老师,看到一个不错的微信小程序宠物医院管理系统(uni-appSpringBoot后端Vue管理端),分享下哈。 项目视频演示 【免费】微信小程序宠物医院管理系统(uni-appSpringBoot后端Vue管理端) Java毕业设计_哔哩哔哩_bilibi…

测试总结(一)

一、测试流程 参与需求评审-制定测试计划-编写测试用例-用例评审-冒烟测试-测试执行-缺陷管理-预发验收测试-发布线上-线上回归-线上观察-项目总结 二、测试用例设计方法 等价类划分(处理有效/无效输入) 边界值分析(临界值测试&#xff09…

SAP-ABAP:ABAP异常处理与SAP现代技术融合—— 面向云原生、微服务与低代码场景的创新实践

专题三:ABAP异常处理与SAP现代技术融合 —— 面向云原生、微服务与低代码场景的创新实践 一、SAP技术演进与异常处理的挑战 随着SAP技术栈向云端、微服务化和低代码方向演进,异常处理面临新场景: Fiori UX敏感度:用户期望前端友…

DC-DC电路的自举电容电路原理

在以往的电子产品设计中,我们经常会选型 DCDC 芯片,在选型过程中经常遇到有些DC-DC电路中需要用到自举电容,本文主要分析自举电容在DC-DC电路中的原理。 无论同步或者异步整流,经常会看到一个自举电容,常并联在DC-DC的…

android studio 开启无线调试

1、在工具的模拟器点击下后,会出现下面菜单: 选择Pair Devices Using Wi-Fi 发现一直在转圈,并不会连接上,之前在android12的时候,发现一连就上了,现在换成了android14,连不上了。 2、选择用命令…

Go基础语法与控制结构

Go基础语法与控制结构 1. 环境配置与Hello World(扩展) 安装指南 # 验证安装成功 $ go version # 设置模块代理(中国用户推荐) $ go env -w GOPROXYhttps://goproxy.cn,direct程序解剖 package main // 程序入口包声明import…

QGIS新手教程:两种方法创建点图层(手动添加 + 表格导入),支持经纬度定位与查找

🌍QGIS新手教程:两种方法创建点图层(手动添加 表格导入),支持经纬度定位与查找 本文将手把手教你在 QGIS 中通过两种方法创建点图层,并结合经纬度定位、拾取坐标、查找属性等功能,快速掌握从地…

Doris ClickHouse Greenplum 对比

1. 核心架构对比 Doris (https://doris.apache.org/) MPP架构 列式存储支持实时更新(Unique Key模型)向量化执行引擎兼容MySQL协议 ClickHouse (https://clickhouse.com/) 分布式列式存储MergeTree存储引…

基于python,html,echart,php,mysql,在线实时监控入侵检测系统

详细视频:【基于python,html,echart,php,mysql,在线实时监控入侵检测系统,需要的可联系介绍都在所有图片中。包远程部署安装。-哔哩哔哩】 https://b23.tv/KHxmE8k