港科大开放世界长时域具身导航!LOVON:足式机器人开放词汇目标导航

  • 作者:Daojie Peng1^{1}1, Jiahang Cao1,2^{1,2}1,2, Qiang Zhang1,2^{1,2}1,2, Jun Ma1,3^{1,3}1,3
  • 单位:1^{1}1香港科技大学(广州),2^{2}2北京人形机器人创新中心,3^{3}3香港科技大学
  • 论文标题:LOVON: Legged Open-Vocabulary Object Navigator
  • 论文链接:https://arxiv.org/pdf/2507.06747
  • 项目主页:https://daojiepeng.github.io/LOVON/
  • 代码链接:https://github.com/DaojiePENG/LOVON

主要贡献

  • 提出统一框架LOVON,整合了LLMs、开放词汇视觉检测和L2MM,用于规划和执行复杂的开放世界长时域导航任务。
  • 开发了基于拉普拉斯方差的运动模糊过滤方法,解决了动态模糊问题,提高了系统的鲁棒性。同时,引入了机器人执行逻辑,确保对各种环境的适应性。
  • 通过仿真和多种足式机器人平台(Unitree Go2、B2和H1-2)的实验验证了系统的有效性,结果表明LOVON能够在非结构化环境中成功执行开放词汇对象搜索和导航任务。

研究背景

  • 近年来,LLMs在自然语言理解、推理和任务分解方面取得了显著进展,被广泛应用于机器人领域的高级任务规划。
  • 开放词汇视觉感知技术也取得了突破性进展,使机器人能够识别和理解超出预定义类别的多样化对象。
  • 足式机器人因其出色的地形适应能力,在复杂环境中展现出巨大潜力。然而,大多数研究集中在单一任务上,如行走、跳跃、攀爬和短距离导航,缺乏对复杂长时域任务的全面考虑。

问题表述

  • 任务描述:机器人需要在任意开放世界环境中执行长时域任务,搜索不同目标。长时域任务 TlT_lTl 被定义为一系列子任务的集合 Tl={Ti∣T1,T2,… }T_l = \{T_i|T_1, T_2, \dots\}Tl={TiT1,T2,},每个子任务对应搜索特定目标 OiO_iOi。任务描述是灵活的,允许不同的任务目标。
  • 核心挑战:机器人需要自主地搜索和识别不同的子目标(目标),根据任务指令以不同速度导航至这些目标。这些子目标在任务过程中可能会发生变化,要求机器人能够动态适应。
  • 目标:开发一个双系统模型:
    • 高级策略:能够将复杂的任务指令 TlT_lTl 分解为具体的子任务指令 Iins={Ii∣I1,I2,… }I_{ins} = \{I_i|I_1, I_2, \dots\}Iins={IiI1,I2,} 并执行任务规划。
    • 低级策略:基于具体的子任务指令 IiI_iIi 和视频流输入 IRGBI_{RGB}IRGB,生成运动向量 Vm∈R3V_m \in \mathbb{R}^3VmR3 以实现精确的运动控制。该模型应能够适应各种足式机器人,确保在实际应用中的多功能性。

方法

  • 最初,LLM将人类的长时域任务重新配置为基本任务指令。这些指令随后传递给指令对象提取器(IOE)以识别目标对象。
  • 检测模型处理捕获的视频流,输入图像使用拉普拉斯滤波器进行预处理。
  • 最后,将任务指令、目标对象、边界框、任务状态和搜索状态结合起来作为提出的L2MM的输入,L2MM生成机器人的控制向量和反馈状态,以逐步完成所有任务。

多模态输入处理

  • LOVON整合了两个预训练模型:用于视觉输入处理的对象检测模型和用于长时域任务管理的LLM。LLM的输入包括系统描述 IsysI_{sys}Isys、用户的长序列任务描述 TlT_lTl 和来自L2MM的反馈 OfO_fOf。利用这些输入,LLM生成具体任务指令 IiI_iIi,使LOVON能够通过产生实现任务目标所需的指令来执行长序列任务:
    Iins=fLLM(Isys,Tl,Of) I_{ins} = f_{LLM}(I_{sys}, T_l, O_f) Iins=fLLM(Isys,Tl,Of)
  • 接着,提出的IOE将指令映射到检测类别。IOE使用两层Transformer和感知层来预测对象类别:
    Iobject=fIOE(Im)∈C I_{object} = f_{IOE}(I_m) \in C Iobject=fIOE(Im)C
    其中 CCC 表示检测模型能够识别的类别集合。
  • 关于视觉处理,对象检测模型以RGB图像 IRGBI_{RGB}IRGBIobjectI_{object}Iobject 作为输入,并输出所需的检测信息如下:
    Om,Cp,Oxy,Owh=fdet(IRGB,Iobject) O_m, C_p, O_{xy}, O_{wh} = f_{det}(I_{RGB}, I_{object}) Om,Cp,Oxy,Owh=fdet(IRGB,Iobject)
    使用归一化格式表示检测结果,预测的对象记为 OmO_mOm,置信度分数为 CpC_pCp,边界框中心位置为 Oxy=[xn,yn]O_{xy} = [x_n, y_n]Oxy=[xn,yn]。边界框的宽度和高度分别表示为 Owh=[wn,hn]O_{wh} = [w_n, h_n]Owh=[wn,hn]。此外,还应用移动平均滤波器对对象检测模型的输出边界框进行平滑处理,进一步提高稳定性。

基于拉普拉斯方差的运动模糊过滤

  • 当足式机器人处于运动状态时,由此产生的波动会导致捕获的帧出现运动模糊。尤其是在机器人动态运动的最初几帧,模糊现象更为严重,这对视觉模型来说是一个挑战。
  • 为了解决这个问题,提出了一种基于拉普拉斯方差的方法,用于检测和过滤运动模糊的帧。这一预处理步骤通过减轻机器人运动和振动引起的运动模糊和失真,提高了输入到基于对象检测的视觉语言管道的鲁棒性。
  • 具体来说,首先将RGB帧 IRGBI_{RGB}IRGB 转换为灰度图像 IgrayI_{gray}Igray。然后,应用拉普拉斯算子以增强高频分量,得到拉普拉斯响应。计算拉普拉斯响应的方差以评估帧的清晰度。如果方差低于阈值 TblurT_{blur}Tblur,则将该帧归类为模糊帧,并用上一个清晰的帧替换它。阈值 TblurT_{blur}Tblur 是针对机器人场景进行经验校准的。

语言到运动模型(L2MM)

  • 提出的L2MM是负责预测运动和提供反馈的核心模块。L2MM采用编码器 - 解码器架构。编码器接收由以下组件组成的输入序列:前一个任务指令 Im0I_{m0}Im0、当前任务指令 Im1I_{m1}Im1、预测的对象 OpO_pOp、预测的置信度 CpC_pCp、中心位置 OxyO_{xy}Oxy、归一化边界框的宽度和高度 OwhO_{wh}Owh、当前任务状态 SmS_mSm 以及当前搜索状态 SsS_sSs。这些输入通过特殊标记 [SEP] 分隔后进行拼接,即 Iencoder={Im0,Im1,Op,Cp,Oxy,Owh,Sm,Ss}I_{encoder} = \{I_{m0}, I_{m1}, O_p, C_p, O_{xy}, O_{wh}, S_m, S_s\}Iencoder={Im0,Im1,Op,Cp,Oxy,Owh,Sm,Ss}。编码器处理该序列并输出潜在状态 lel_ele

  • 该架构使模型能够同时预测运动向量、任务状态和搜索状态,从而使机器人不仅能够精确控制其运动,还能够理解长任务序列并提供相关反馈。

损失函数

根据任务的不同,模型使用不同的损失函数进行训练:

  • 运动向量损失:对于运动向量头 DmotionD_{motion}Dmotion,使用均方误差损失,并使用系数 β\betaβ 来衡量预测运动向量与实际运动向量之间的差异:
    LMSE=1N∑i=1Nβ(Vipred−Vitrue)2 L_{MSE} = \frac{1}{N} \sum_{i=1}^{N} \beta (V_{i}^{pred} - V_{i}^{true})^2 LMSE=N1i=1Nβ(VipredVitrue)2
  • 任务和搜索状态损失:对于任务和搜索状态头 DmissionD_{mission}DmissionDsearchD_{search}Dsearch,使用交叉熵损失来比较预测状态与真实标签:
    LCE=−∑i=1Nyilog⁡(pi) L_{CE} = -\sum_{i=1}^{N} y_i \log(p_i) LCE=i=1Nyilog(pi)
    其中 yiy_iyi 是真实标签,pip_ipi 是每个类别的预测概率。

机器人任务执行的功能逻辑

  • 执行新任务:机器人将当前任务指令与上一个任务指令进行比较,如果发现它们不同,机器人就会开始执行新的任务。
  • 奔向目标对象:一旦机器人检测到任务目标,它就会根据运动向量和检测结果向该目标移动。
  • 搜索丢失的目标对象:如果机器人失去了对任务目标的跟踪,它会自动切换到搜索状态,并调整其运动以重新找到目标。
  • 保持当前状态:机器人会根据实时视觉输入保持其当前状态,直到触发状态转换,确保任务执行的一致性。
  • 完成任务:机器人会持续监测任务目标,一旦目标的边界框大小达到成功阈值,机器人就会停止并切换到成功状态。

数据集准备

数据集生成流程包括三个主要部分:

  • 检测类别同义词扩展:使用LLM为预定义的对象类别生成同义词,丰富对象类别,提高模型在不同对象描述下的泛化能力。
  • 指令变体生成:为了增强语言模块,使用LLM生成任务指令的释义。这使得模型能够处理多样化的句子结构,同时保留核心信息,提高其适应性。
  • 对象类别的阈值生成:根据初始示例定义对象检测的成功阈值,然后使用LLM为其他类别调整这些阈值,确保模型能够处理不同大小的对象。
  • 数据集生成特点:在生成过程中,生成的数据会反馈到LLM中,以迭代地优化数据集,避免冗余,提高数据集的多样性。数据集生成过程快速且易于扩展,使用CPU Intel i9-12900KF在不到15分钟内就可以生成100万条数据。

实验

实验设置

  • 模型细节:使用YOLO-11作为对象检测模型,DeepSeek R1作为任务规划器和数据生成助手。L2MM是一个基于Transformer的模型,具有256维特征、4层、8个注意力头、1024维前馈层和一个线性头层。IOE具有类似的架构,但特征维度较小。
  • 训练设置:收集了100万样本的数据集,分为训练集和测试集,比例为4:1。使用NVIDIA RTX 3080 Ti GPU进行训练。L2MM模型的训练参数包括0.1的dropout率、10^-4的学习率、512的批量大小、64的最大序列长度和10的运动损失系数β。使用AdamW优化器训练25个周期,总训练时间约为1小时。

  • 机器人设置:LOVON可以应用于多种足式机器人。在实验中,评估了Unitree Go2、B2和H1-2三种模型。计算平台使用Jetson Orin,视觉平台包括机器人的内置摄像头和Realsense D435i摄像头。

运动模糊帧过滤的性能

研究运动模糊对目标检测性能的影响,并验证提出的运动模糊帧过滤方法的有效性。

  • 实验方法:让机器人以0.3、0.5或0.7 m/s的固定速度接近背包、椅子或人。计算每个帧的拉普拉斯方差,并将其输入目标检测模型以获得预测置信度分数。

  • 实验结果:发现拉普拉斯方差与YOLO置信度之间存在显著波动。通过设置模糊阈值,可以过滤掉运动模糊严重的帧。实验结果表明,当阈值设置为Tblur = 150时,所有数据集的合格帧率提高了约15%。将过滤方法整合到目标检测流程中后,合格帧率总体提高了25%。

在仿真环境中的评估

  • 基准和评估指标:在Gym-Unreal基准的四个场景(UrbanCity、SnowVillage、ParkingLot和UrbanRoad)中进行评估。使用两个指标:集数长度(EL)和成功率(SR)。

  • 性能比较:LOVON在大多数环境中的表现优于基线方法,例如在ParkingLot环境中,LOVON的平均集数长度为500,成功率为1.00,而EVT的平均集数长度为484,成功率为0.92。与TrackVLA相比,LOVON在训练时间上更高效,仅需1.5小时,而TrackVLA需要360小时。

在现实世界实验中的评估

  • 开放世界适应性:LOVON能够处理日常生活中常见的各种大小和类型的物体,包括大型物体(如汽车)、中型物体(如人)和小型物品(如包)。
  • 多目标跟踪:通过LLM规划器实现长时域目标导航,使机器人能够高效地跟踪多个目标。
  • 动态跟踪:LOVON能够在动态环境中成功跟随移动目标,例如在平坦道路、螺旋楼梯和野草中行走。
  • 抗干扰能力:即使目标物体被移动或机器人受到干扰(如被踢),机器人也能快速重新定位并继续搜索。

消融研究

  • 模型参数的消融研究:研究了模型大小、数据集大小Nds、运动损失权重β和特殊标记[SEP]的包含与否对模型性能的影响。结果表明,中等大小的模型表现最佳,数据集大小对模型稳定性有影响,运动损失权重β对性能至关重要,特殊标记[SEP]对于区分不同输入组件(尤其是语言)是必要的。
  • 过滤方法和状态数量的消融研究:评估了搜索状态的数量和帧过滤技术对目标丢失时导航效率的影响。实验结果表明,使用四个状态和帧过滤技术的配置(Case 3)在导航效率方面表现最佳。

结论与未来工作

  • 结论:
    • LOVON通过整合LLMs、开放词汇视觉检测和L2MM,有效地解决了足式机器人在开放世界环境中执行长时域任务的挑战。
    • 通过拉普拉斯方差帧过滤和平均置信度平滑滤波器,显著提高了模型在实际应用中的性能。
  • 未来工作:
    • 在未来的工作中,论文计划进一步优化LOVON的架构,增强其与最新视觉语言模型的集成,以进一步提升其在具身智能导航任务中的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/95147.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/95147.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【前端教程】JavaScript 数组对象遍历与数据展示实战

在前端开发中,处理数组和对象是日常工作的基础。无论是篇文章将通过一个具体案例,详细讲解如何使用JavaScript遍历包含对象的数组,并将数据以清晰的格式展示在页面上。我们会从基础语法开始,逐步优化代码,最终实现一个…

无重复字符的最长子串,leetCode热题100,C++实现

题目来源&#xff1a;leetCode 3. 无重复字符的最长子串 - 力扣&#xff08;LeetCode&#xff09; 给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的 最长 子串 的长度。 解法 class Solution { public:int lengthOfLongestSubstring(string s) {unordered_set<…

卷积神经网络中1×1卷积的作用

part I &#xff1a;来源part II &#xff1a;应用part III &#xff1a;作用&#xff08;降维、升维、跨通道交互、增加非线性&#xff09;part IV &#xff1a;从fully-connected layers的角度理解一、来源&#xff1a;[1312.4400] Network In Network &#xff08;如果11…

VMware设置Ubuntu虚拟机桥接模式完整教程

VMware 设置 Ubuntu 虚拟机桥接模式完整教程 下面是一个详细的、避免出错的 VMware Ubuntu 桥接模式设置教程&#xff0c;包含常见问题的解决方案。 准备工作 确保宿主机&#xff08;Windows 11&#xff09;已连接到网络&#xff08;有线或无线&#xff09;确认您有管理员权限关…

浅析NVMe协议:DIF

文章目录概述DIF数据格式盘片支持DIFFormatPILPIMSETLBAF协议命令DIF支持PRACTPRACT0PRACT1PRCHK相关参考概述 NVMe协议将DIF信息作为元数据的一部分进行携带。 DIF数据格式 DIF的PI由多个字段组成&#xff0c;包括&#xff1a; Guard字段&#xff1a;基于逻辑块数据计算的C…

【观成科技】蔓灵花User下载者加密通信分析

概述2025年5月7日&#xff0c;蔓灵花&#xff08;BITTER&#xff09;组织针对巴基斯坦电信公司工作人员发起钓鱼邮件攻击&#xff0c;投递伪装为安全简报的恶意邮件&#xff0c;附件为IQY类型的Web查询文件。该文件在用户执行后通过HTTP协议获取远程CMD指令并执行&#xff0c;进…

Redis 保证数据不丢失

Redis 保证数据不丢失&#xff08;或最大限度减少丢失&#xff09;的核心是通过 持久化机制 结合 合理的配置策略 实现的。具体方案如下&#xff1a;一、核心&#xff1a;开启 Redis 持久化&#xff08;防止进程崩溃丢失数据&#xff09;Redis 提供两种持久化方式&#xff0c;可…

NUMA/SNC 4种组合下Stream+MLC性能对决:双路服务器BIOS调优全攻略

关于调整 BIOS NUMA 与 SNC 选项的 Stream / MLC 性能测试总结一、测试背景与目的在现代多路 Intel Xeon 服务器上&#xff0c;NUMA&#xff08;Non-Uniform Memory Access&#xff09;与 SNC&#xff08;Sub-NUMA Clustering&#xff09;是两项决定内存访问延迟与带宽的关键 B…

Java-113 深入浅出 MySQL 扩容全攻略:触发条件、迁移方案与性能优化

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; &#x1f680; AI篇持续更新中&#xff01;&#xff08;长期更新&#xff09; AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布&#xff01;“快的…

Kafka Connect + Streams 用到极致从 CDC 到流处理的一套落地方案

关键目标&#xff1a; 零丢失&#xff1a;端到端 Exactly Once&#xff08;Source 端事务 Streams exactly_once_v2 Sink DLQ&#xff09;。低延迟&#xff1a;Producer 端批量压缩 Streams 缓存 合理 poll/commit 间隔。可恢复&#xff1a;Connect/Streams 的 rebootstrap…

# `std::basic_istream`总结

std::basic_istream总结 文章目录std::basic_istream总结概述常用类型定义全局对象核心成员函数1. 格式化输入2. 非格式化输入3. 流定位4. 其他功能继承的功能来自 std::basic_ios状态检查状态管理来自 std::ios_base格式化标志流打开模式特点说明例子std::basic_istream全面用…

人工智能——课程考核

课程考核包括平时测验&#xff08;75%&#xff09;和讨论&#xff08;25%&#xff09;两个环节&#xff0c;测验采用线上随堂考试&#xff08;2-3次&#xff0c;具体会在本课堂发布&#xff09;重点考核&#xff1a;A*算法、极大极小过程&#xff08;α-β剪枝&#xff09;、不…

机器学习-时序预测1

最近面试过程中&#xff0c;Predict-then-Optimize是运筹优化算法工程师未来的发展方向。就像我之前写过的运筹优化&#xff08;OR&#xff09;-在机器学习&#xff08;ML&#xff09;浪潮中何去何从&#xff1f;-CSDN博客&#xff0c;机器学习适合预测、运筹优化适合决策。我研…

vim-plugin AI插件

文章目录一、vim 插件管理vim-plug二、如何使用和配置 vim-plug第 1 步&#xff1a;安装 vim-plug第 2 步&#xff1a;配置你的 .vimrc / init.vim第 3 步&#xff1a;安装插件常用 vim-plug 命令三、配置vim-aivim-aivim-deepseekvim升级四、配置 AI 插件GitHub Copilot第 1 步…

Adobe Photoshop 2025 最新下载安装教程,附PS2025下载

点击获取&#xff1a;Adobe Photoshop 2025 安装教程&#xff1a; 1、安装包下载后&#xff0c;鼠标右键解压安装包 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; 2、双击打开解压后的安装包文件夹 3、打开setup文件夹 添加图片注释&#xff0c;不超过…

LeetCode算法日记 - Day 27: 计算右侧小于当前元素的个数、翻转对

目录 1. 计算右侧小于当前元素的个数 1.1 题目解析 1.2 解法 1.3 代码实现 2. 翻转对 2.1 题目解析 2.2 解法 2.3 代码实现 1. 计算右侧小于当前元素的个数 315. 计算右侧小于当前元素的个数 - 力扣&#xff08;LeetCode&#xff09; 给你一个整数数组 nums &#xf…

基于SamOut的音频Token序列生成模型训练指南

通过PyTorch实现从音频特征到语义Token的端到端序列生成&#xff0c;适用于语音合成、游戏音效生成等场景。&#x1f9e0; 模型架构与核心组件 model SamOut(voc_sizevoc_size, # 词汇表大小&#xff08;4098目录名特殊Token&#xff09;hidden_sizehidden_size, …

AWD攻防总结

基本防守策略 1、改用户密码和服务密码 1&#xff09;改linux用户密码&#xff1a; #passwd 如果有权限就删除用户&#xff1a; #userdel -r [用户名] 2&#xff09;改mysql密码&#xff1a; #update mysql.user set passwordpassword(密码) where userroot; 删除匿名用户&…

Android14 基于Configfs的USB动态配置init.usb.configfs.rc

1 Android14 USB子系统启动以及动态切换的init.usb.rc 2 Android14 基于Configfs的USB动态配置init.usb.configfs.rc 3 Android14 高通平台的USB子系统启动和动态配置init.qcom.usb.rc 1. 什么是ConfigFS ConfigFS 是 Linux 内核提供的一种用户空间可配置的伪文件系统在Linu…

2025年KBS SCI1区TOP,矩阵差分进化算法+移动网络视觉覆盖无人机轨迹优化,深度解析+性能实测

目录1.摘要2.系统模型和问题表述3.矩阵差分进化算法4.结果展示5.参考文献6.算法辅导应用定制读者交流1.摘要 本文提出了一种面向无人机&#xff08;UAV&#xff09;新型轨迹优化方法&#xff0c;以实现对地面移动节点的高效视觉覆盖。与传统方法不同&#xff0c;该方法显式考虑…