印度语言指令驱动的无人机导航!UAV-VLN:端到端视觉语言导航助力无人机自主飞行

  • 作者:Pranav Saxena, Nishant Raghuvanshi and Neena Goveas
  • 单位:比尔拉理工学院(戈瓦校区)
  • 论文标题:UAV-VLN: End-to-End Vision Language guided Navigation for UAVs
  • 论文链接:https://arxiv.org/pdf/2504.21432

主要贡献

  • 提出了UAV-VLN,这是一个针对无人机(UAV)的端到端视觉语言导航(VLN)框架,能够在复杂的真实世界环境中解释和执行自由形式的自然语言指令,填补了无人机视觉语言导航领域的研究空白。
  • 构建了一个包含1000多个空中导航指令提示及其对应子计划的新颖数据集,专门用于训练和评估适用于3D无人机环境的大型语言模型。
  • 证明了该方法能够泛化到未见环境和指令,在室内外环境中均实现了稳健的零样本导航性能。

研究背景

  • 无人机(UAV)在室内和室外环境中承担着越来越多的任务,如包裹递送、空中监视和搜索救援等,这些任务要求无人机能够在动态、以人类为中心的环境中导航,同时与静态物体和移动主体进行交互。
  • 传统的无人机导航方法依赖于预定义的飞行路径或基于GPS的航点,难以应对动态环境、不确定性和信息不完整的挑战。
  • 视觉语言导航(VLN)为无人机导航提供了新的方向,使无人机能够通过视觉输入将高级自然语言指令转化为复杂的导航任务,但以往的VLN方法主要针对在结构化二维环境中运行的轮式或腿式机器人,对无人机的适用性有限。

研究方法

问题定义

  • 任务目标:给定一个自由形式的自然语言指令 I I I 和无人机从机载RGB相机捕获的视觉观测流 V = { v 1 , v 2 , … , v T } V = \{v_1, v_2, \dots, v_T\} V={v1,v2,,vT},目标是预测一个控制指令序列 A = { a 1 , a 2 , … , a T } A = \{a_1, a_2, \dots, a_T\} A={a1,a2,,aT},引导无人机从起始位置到达指令中描述的目标位置或目标状态,同时安全地穿越环境。
  • 关键挑战
    • 语义解析:从非结构化语言中提取可操作的目标和空间线索。
    • 视觉定位:在动态、无结构的环境中,将语言引用的对象和区域与无人机的视觉视野对齐。
    • 轨迹规划:在三维空间中生成可行、安全且符合指令的飞行路径。
    • 泛化能力:在新环境中保持鲁棒性,对新的指令和视觉场景具有最小的重新训练需求。

自然语言Prompt

  • 核心目标:准确理解和执行自然语言指令。
  • 问题:通用的预训练大型语言模型(如ChatGPT或Gemini)在无人机导航任务中可能会出现误解或错误分类动作,且依赖云端基础设施可能导致延迟或可用性问题。
  • 解决方案:采用基于领域特定数据集的微调方法。作者定制了一个无人机指令数据集,并在该数据集上微调了TinyLlama-1.1B模型,使其更好地理解无人机特定的术语、空间指令和安全关键细节。
  • 输入
    • 输入提示:用户提供的高级自然语言指令。
    • 动作空间:无人机可以执行的所有有效离散动作集合。
  • 输出:微调后的LLM生成一系列中间子目标,每个子目标对应一个可执行的无人机动作。

自动化任务规划器

  • 功能:将LLM分解的高级子目标进一步转换为具体的行动计划,以便无人机在物理环境中执行。
  • 实现
    • 利用无人机的离散动作空间,结合当前状态和环境上下文,为每个子目标生成有效且高效的子计划。
    • 将这些子计划组合成一个连贯的最终执行计划,确保无人机安全且最优地完成任务。
  • 技术实现:使用Robot Operating System 2(ROS 2)实现控制流程,提供模块化、实时能力和与无人机飞行堆栈的稳健集成。

视觉输入

  • 目标:结合语言理解分析视觉输入,确定无人机的目标位置。
  • 挑战:无人机不仅要准确感知环境,还要根据自然语言指令对感知结果进行语义定位。
  • 解决方案:采用开放词汇对象检测器Grounding DINO,利用文本查询的语义丰富性定位视觉输入中的相关实体。
    • 输入:指令和微调后的TinyLlama-1.1B模型处理后的文本。
    • 输出:目标对象或区域的描述符,用于在相机流中定位目标。
    • 功能
    • 解释指令以识别目标对象或地标。
    • 使用Grounding DINO在相机流中定位这些目标。
    • 根据无人机与检测到的实体之间的空间关系生成基于语义的子目标。

终止条件

  • 重要性:准确判断何时终止导航任务与执行路径本身同等重要。过早或过晚终止可能导致无人机悬停、漂移或错过目标位置。
  • 终止逻辑
    • 目标对象检测:使用Grounding DINO确认当前视野中是否存在指令中指定的目标对象或地标。
    • 接近度检查:使用预定义的空间阈值验证无人机是否在目标的可接受范围内。
    • 指令满足:验证从指令中派生的子目标是否已成功执行。
  • 实现:终止逻辑集成在ROS 2控制堆栈中,确保任务结束时无人机状态的安全处理,并为未来扩展(如用户发起的停止信号或任务失败时的动态重新规划)提供支持。

实验

实验设置

  • 硬件:在配备Nvidia GTX 1650 GPU的笔记本电脑上运行,模拟真实无人机配备的计算能力。
  • 模拟器:使用Gazebo Garden与ROS 2进行仿真,无人机配备Pixhawk飞行控制器和底部安装的单目相机。
  • 评估指标:使用成功完成任务的比例(Success Rate, SR)和路径效率(Success Rate Weighted by Inverse Path Length, SPL)进行评估。

评估场景

实验在四个不同场景中进行,每个场景包含15个不同的导航任务:

  • 仓库
  • 公园
  • 房屋社区
  • 办公室

基线方法

  • DEPS:使用LLM进行中间推理,通过描述环境、解释子目标、规划候选动作并选择可行计划。
  • VLMNav:使用Gemini 2.0 Flash作为零样本和端到端的语言条件导航策略。

实验结果

  • UAV-VLN在所有场景中的表现均优于基线方法,显示出更高的成功完成任务的比例和路径效率。
  • 例如,在“公园”场景中,UAV-VLN的成功率达到93.33%,路径效率为0.0792,而DEPS的成功率为86.67%,路径效率为0.0733;VLMNav的成功率为73.33%,路径效率为0.0755。

消融研究

  • 不同LLM和视觉模型的组合:实验结果表明,使用开放词汇模型(如CLIPSeg和Grounding DINO)比封闭词汇模型(如YOLO)表现更好,能够更好地泛化到不同场景。
  • 微调的重要性:微调后的TinyLlama-1.1B模型在所有场景中均优于未微调的模型,强调了针对无人机任务定制语言模型的重要性。

结论与未来工作

  • UAV-VLN通过结合微调的大型语言模型的语义推理能力和开放词汇视觉定位,显著提高了指令遵循准确性和路径效率,能够在复杂动态环境中实现稳健的导航。
  • 未来工作计划将导航历史和轻量级语义映射纳入系统,帮助无人机进行全局推理,避免冗余探索并规划更高效的路径,使UAV-VLN系统更接近于在具有挑战性的开放世界环境中实现真正可扩展和终身导航的目标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/906585.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Zynq SDK的LWIP UDP组播开发实战指南

一、为什么选择LWIP组播? 在工业控制、智能安防、物联网等领域,一对多的高效数据传输需求日益增长。Zynq-7000系列SoC凭借其ARM+FPGA的独特架构,结合LWIP轻量级网络协议栈,成为嵌入式网络开发的理想选择。本文将带您实现: LWIP组播配置全流程动态组播组切换技术零拷贝数据…

(三)MMA(KeyCloak身份服务器/OutBox Pattern)

文章目录 项目地址一、KeyCloak二、OutBox Pattern2.1 配置Common模块的OutBox1. OutboxMessage2. 数据库配置OutboxMessageConfiguration3. 创建Save前的EF拦截器4. 创建Quartz后台任务5. 配置后台任务6. 注册服务2.2 创建OutBox的消费者1. 自定义IDomainEventHandler2. 定义抽…

初步认识HarmonyOS NEXT端云一体化开发

视频课程学习报名入口:HarmonyOS NEXT端云一体化开发 1、课程设计理念 本课程采用"四维能力成长模型"设计理念,通过“能看懂→能听懂→能上手→能实战”的渐进式学习路径,帮助零基础开发者实现从理论认知到商业级应用开发的跨越。该模型将学习过程划分为四个维度…

Vue百日学习计划Day43-45天详细计划-Gemini版

Day 43: Composable 函数基础与抽取简单逻辑 (~3 小时) 本日目标: 理解 Composable 函数的概念、优势,并学会如何将简单的、无状态的逻辑抽取为 Composable。所需资源: Vue 3 官方文档 (组合式函数): https://cn.vuejs.org/guide/reusability/composables.html 学…

C++:list容器,deque容器

list容器&#xff1a;双向链表容器&#xff0c;底层是双向链表。 简单使用如下&#xff1a; #include<iostream> #include<list> using namespace std;int main() {list<int> lst;lst.push_back(1);lst.push_back(2);lst.push_back(3);lst.push_front(4);l…

STM32之温湿度传感器(DHT11)

KEIL软件实现printf格式化输出 一般在标准C库是提供了格式化输出和格式化输入等函数&#xff0c;用户想要使用该接口&#xff0c;则需要包含头文件 #include &#xff0c;由于printf函数以及scanf函数是向标准输出以及标准输入中进行输出与输入&#xff0c;标准输出一般指的是…

【苍穹外卖】Day01—Mac前端环境搭建

目录 一、安装Nginx &#xff08;一&#xff09;安装Homebrew &#xff08;二&#xff09;Homebrew安装Nginx 1. 执行安装命令&#xff1a; 2. 验证安装&#xff1a; &#xff08;三&#xff09;启动与停止Nginx 二、配置Nginx 1. 替换nginx.conf 2. 替换html文件夹 三…

docker面试题(3)

如何临时退出一个正在交互的容器的终端&#xff0c;而不终止它 按ctrlp&#xff0c;后按ctrlq &#xff0c;如果按ctrlc会使容器内的应用进程终止&#xff0c;进而会使容器终止 很多应用容器都默认是后台运行的&#xff0c;怎么查看它们输出的日志信息 使用docker logs &#…

单片机设计_四轴飞行器(STM32)

四轴飞行器&#xff08;STM32&#xff09; 想要更多项目私wo!!! 一、系统简介 四轴飞行器是一种通过四个旋翼产生的升力实现飞行的无人机&#xff0c;其核心控制原理基于欧拉角动力学模型。四轴飞行器通过改变四个电机的转速来实现六自由度控制&#xff08;前后、左右、上下…

Vue 3 与 Vue 2 的区别详解

Vue 3 在性能、语法、响应式、类型系统等方面相比 Vue 2 做了大幅优化和改进。本篇将从多个维度详细对比 Vue 3 与 Vue 2 的核心区别。 &#x1f4cc; 核心对比表格 对比维度Vue 2Vue 3说明核心 API 模式Options APIComposition API&#xff08;兼容 Options&#xff09;Vue 3…

深入理解 Redisson 看门狗机制:保障分布式锁自动续期

在分布式系统的开发中&#xff0c;分布式锁是解决资源竞争、数据一致性问题的关键手段。Redisson 作为一个在 Java 领域广泛使用的 Redis 客户端框架&#xff0c;为我们提供了功能强大且易用的分布式锁实现。其中&#xff0c;看门狗&#xff08;watchDog&#xff09;机制更是 R…

配置gem5环境:Dockerfile使用

下载ZIP文件 到dockerfile所在目录下&#xff1a; 运行以下命令 注意不要忘记最后的标点 . docker build -t gem5bootcamp .在 Dockerfile 所在目录下执行 docker build 时&#xff0c;Docker 会按照 Dockerfile 中的指令&#xff0c;自动下载和构建所需的一切。不过这过程里…

角度回归——八参数检测四边形Gliding Vertex

文章目录 一、介绍&#xff08;一&#xff09;五参数检测方法&#xff08; 基于角度&#xff09;&#xff08;二&#xff09;八参数检测方法&#xff08;point-based&#xff09;的边界 二、方案分析&#xff08;一&#xff09;问题定义&#xff08;二&#xff09;方案&#xf…

鸿蒙系统电脑:开启智能办公新时代

鸿蒙系统电脑&#xff1a;开启智能办公新时代 引言 2025 年 5 月 8 日&#xff0c;华为正式推出了鸿蒙系统电脑&#xff0c;这款具有里程碑意义的产品&#xff0c;不仅彰显了华为在智能设备领域的创新实力&#xff0c;也为用户带来了全新的智能办公体验。在数字化转型加速的背…

计量单片机 RN8302:特性、使用与应用

在现代电力监测与能源管理领域&#xff0c;精确的电能计量至关重要。计量单片机 RN8302 作为一款高性能的电能计量芯片&#xff0c;凭借其卓越的特性与功能&#xff0c;在众多应用场景中发挥着关键作用。本文将全面深入地介绍 RN8302 的各项特性、使用方法、注意事项以及广泛的…

Flink 的窗口机制

&#x1fa9f; 1. 基于时间驱动的滚动时间窗口&#xff08;Tumbling Time Window - Time-based&#xff09; ✅ 定义&#xff1a; 每隔固定的时间周期开启一个新的窗口。窗口之间不重叠。 &#x1f552; 示例&#xff1a; DataStream<Tuple2<String, Integer>>…

【RA-Eco-RA2L1-48PIN】ADC 电压表与OLED显示

【RA-Eco-RA2L1-48PIN】ADC 电压表与OLED显示 本文介绍了 RA-Eco-RA2L1-48PIN 开发板通过瑞萨 e2 Studio 灵活软件包&#xff08;FSP&#xff09;编程实现 ADC 串口采集电压和OLED显示电压数值的项目设计&#xff0c;包括串口电压值串口打印、硬件 IIC 通信协议配置、 OLED显示…

GraphQL在.NET 8中的全面实践指南

一、GraphQL与.NET 8概述 GraphQL是一种由Facebook开发的API查询语言&#xff0c;它提供了一种更高效、更灵活的替代REST的方案。与REST不同&#xff0c;GraphQL允许客户端精确指定需要的数据结构和字段&#xff0c;避免了"过度获取"或"不足获取"的问题。…

Elasticsearch 写入性能优化有哪些常见手段?

Elasticsearch 写入性能优化常见手段主要有以下 10 个方向&#xff0c;建议根据具体业务场景组合使用&#xff1a; 批量写入优化 使用_bulk API 批量提交文档建议每批次 5-15MB 数据量并发执行多个批量请求 索引配置调优 PUT /my_index {"settings": {"inde…

【图像大模型】基于深度对抗网络的图像超分辨率重建技术ESRGAN深度解析

基于深度对抗网络的图像超分辨率重建技术ESRGAN深度解析 一、技术背景与核心创新1.1 图像超分辨率技术演进1.2 核心技术创新对比 二、算法原理深度解析2.1 网络架构设计2.1.1 RRDB模块结构 2.2 损失函数设计2.2.1 对抗损失&#xff08;Adversarial Loss&#xff09;2.2.2 感知损…