港科大开放世界长时域具身导航！LOVON：足式机器人开放词汇目标导航

作者：Daojie Peng $^{1}$ , Jiahang Cao $^{1,2}$ , Qiang Zhang $^{1,2}$ , Jun Ma $^{1,3}$
单位： $^{1}$ 香港科技大学（广州）， $^{2}$ 北京人形机器人创新中心， $^{3}$ 香港科技大学
论文标题：LOVON: Legged Open-Vocabulary Object Navigator
论文链接：https://arxiv.org/pdf/2507.06747
项目主页：https://daojiepeng.github.io/LOVON/
代码链接：https://github.com/DaojiePENG/LOVON

主要贡献

提出统一框架LOVON，整合了LLMs、开放词汇视觉检测和L2MM，用于规划和执行复杂的开放世界长时域导航任务。
开发了基于拉普拉斯方差的运动模糊过滤方法，解决了动态模糊问题，提高了系统的鲁棒性。同时，引入了机器人执行逻辑，确保对各种环境的适应性。
通过仿真和多种足式机器人平台（Unitree Go2、B2和H1-2）的实验验证了系统的有效性，结果表明LOVON能够在非结构化环境中成功执行开放词汇对象搜索和导航任务。

研究背景

近年来，LLMs在自然语言理解、推理和任务分解方面取得了显著进展，被广泛应用于机器人领域的高级任务规划。
开放词汇视觉感知技术也取得了突破性进展，使机器人能够识别和理解超出预定义类别的多样化对象。
足式机器人因其出色的地形适应能力，在复杂环境中展现出巨大潜力。然而，大多数研究集中在单一任务上，如行走、跳跃、攀爬和短距离导航，缺乏对复杂长时域任务的全面考虑。

问题表述

任务描述：机器人需要在任意开放世界环境中执行长时域任务，搜索不同目标。长时域任务 $T_l$ 被定义为一系列子任务的集合 $}T_l = \{T_i|T_1, T_2, \dots\}$ ，每个子任务对应搜索特定目标 $O_i$ 。任务描述是灵活的，允许不同的任务目标。
核心挑战：机器人需要自主地搜索和识别不同的子目标（目标），根据任务指令以不同速度导航至这些目标。这些子目标在任务过程中可能会发生变化，要求机器人能够动态适应。
目标：开发一个双系统模型：
- 高级策略：能够将复杂的任务指令 $T_l$ 分解为具体的子任务指令 $}I_{ins} = \{I_i|I_1, I_2, \dots\}$ 并执行任务规划。
- 低级策略：基于具体的子任务指令 $I_i$ 和视频流输入 $I_{RGB}$ ，生成运动向量 $Vm∈R3V_m \in \mathbb{R}^3$ 以实现精确的运动控制。该模型应能够适应各种足式机器人，确保在实际应用中的多功能性。

方法

最初，LLM将人类的长时域任务重新配置为基本任务指令。这些指令随后传递给指令对象提取器（IOE）以识别目标对象。
检测模型处理捕获的视频流，输入图像使用拉普拉斯滤波器进行预处理。
最后，将任务指令、目标对象、边界框、任务状态和搜索状态结合起来作为提出的L2MM的输入，L2MM生成机器人的控制向量和反馈状态，以逐步完成所有任务。

多模态输入处理

LOVON整合了两个预训练模型：用于视觉输入处理的对象检测模型和用于长时域任务管理的LLM。LLM的输入包括系统描述 $I_{sys}$ 、用户的长序列任务描述 $T_l$ 和来自L2MM的反馈 $O_f$ 。利用这些输入，LLM生成具体任务指令 $I_i$ ，使LOVON能够通过产生实现任务目标所需的指令来执行长序列任务：
$I_{ins} = f_{LLM}(I_{sys}, T_l, O_f)$
接着，提出的IOE将指令映射到检测类别。IOE使用两层Transformer和感知层来预测对象类别：
$I_{object} = f_{IOE}(I_m) \in C$
其中 $C$ 表示检测模型能够识别的类别集合。
关于视觉处理，对象检测模型以RGB图像 $I_{RGB}$ 和 $I_{object}$ 作为输入，并输出所需的检测信息如下：
$O_m, C_p, O_{xy}, O_{wh} = f_{det}(I_{RGB}, I_{object})$
使用归一化格式表示检测结果，预测的对象记为 $O_m$ ，置信度分数为 $C_p$ ，边界框中心位置为 $O_{xy} = [x_n, y_n]$ 。边界框的宽度和高度分别表示为 $O_{wh} = [w_n, h_n]$ 。此外，还应用移动平均滤波器对对象检测模型的输出边界框进行平滑处理，进一步提高稳定性。

基于拉普拉斯方差的运动模糊过滤

当足式机器人处于运动状态时，由此产生的波动会导致捕获的帧出现运动模糊。尤其是在机器人动态运动的最初几帧，模糊现象更为严重，这对视觉模型来说是一个挑战。
为了解决这个问题，提出了一种基于拉普拉斯方差的方法，用于检测和过滤运动模糊的帧。这一预处理步骤通过减轻机器人运动和振动引起的运动模糊和失真，提高了输入到基于对象检测的视觉语言管道的鲁棒性。
具体来说，首先将RGB帧 $I_{RGB}$ 转换为灰度图像 $I_{gray}$ 。然后，应用拉普拉斯算子以增强高频分量，得到拉普拉斯响应。计算拉普拉斯响应的方差以评估帧的清晰度。如果方差低于阈值 $T_{blur}$ ，则将该帧归类为模糊帧，并用上一个清晰的帧替换它。阈值 $T_{blur}$ 是针对机器人场景进行经验校准的。

语言到运动模型（L2MM）

提出的L2MM是负责预测运动和提供反馈的核心模块。L2MM采用编码器 - 解码器架构。编码器接收由以下组件组成的输入序列：前一个任务指令 $I_{m0}$ 、当前任务指令 $I_{m1}$ 、预测的对象 $O_p$ 、预测的置信度 $C_p$ 、中心位置 $O_{xy}$ 、归一化边界框的宽度和高度 $O_{wh}$ 、当前任务状态 $S_m$ 以及当前搜索状态 $S_s$ 。这些输入通过特殊标记 [SEP] 分隔后进行拼接，即 $I_{encoder} = \{I_{m0}, I_{m1}, O_p, C_p, O_{xy}, O_{wh}, S_m, S_s\}$ 。编码器处理该序列并输出潜在状态 $l_e$ 。

该架构使模型能够同时预测运动向量、任务状态和搜索状态，从而使机器人不仅能够精确控制其运动，还能够理解长任务序列并提供相关反馈。

损失函数

根据任务的不同，模型使用不同的损失函数进行训练：

运动向量损失：对于运动向量头 $D_{motion}$ ，使用均方误差损失，并使用系数 $β\beta$ 来衡量预测运动向量与实际运动向量之间的差异：
$L_{MSE} = \frac{1}{N} \sum_{i=1}^{N} \beta (V_{i}^{pred} - V_{i}^{true})^2$
任务和搜索状态损失：对于任务和搜索状态头 $D_{mission}$ 和 $D_{search}$ ，使用交叉熵损失来比较预测状态与真实标签：
$L_{CE} = -\sum_{i=1}^{N} y_i \log(p_i)$
其中 $y_i$ 是真实标签， $p_i$ 是每个类别的预测概率。

机器人任务执行的功能逻辑

执行新任务：机器人将当前任务指令与上一个任务指令进行比较，如果发现它们不同，机器人就会开始执行新的任务。
奔向目标对象：一旦机器人检测到任务目标，它就会根据运动向量和检测结果向该目标移动。
搜索丢失的目标对象：如果机器人失去了对任务目标的跟踪，它会自动切换到搜索状态，并调整其运动以重新找到目标。
保持当前状态：机器人会根据实时视觉输入保持其当前状态，直到触发状态转换，确保任务执行的一致性。
完成任务：机器人会持续监测任务目标，一旦目标的边界框大小达到成功阈值，机器人就会停止并切换到成功状态。

数据集准备

数据集生成流程包括三个主要部分：

检测类别同义词扩展：使用LLM为预定义的对象类别生成同义词，丰富对象类别，提高模型在不同对象描述下的泛化能力。
指令变体生成：为了增强语言模块，使用LLM生成任务指令的释义。这使得模型能够处理多样化的句子结构，同时保留核心信息，提高其适应性。
对象类别的阈值生成：根据初始示例定义对象检测的成功阈值，然后使用LLM为其他类别调整这些阈值，确保模型能够处理不同大小的对象。
数据集生成特点：在生成过程中，生成的数据会反馈到LLM中，以迭代地优化数据集，避免冗余，提高数据集的多样性。数据集生成过程快速且易于扩展，使用CPU Intel i9-12900KF在不到15分钟内就可以生成100万条数据。

实验

实验设置

模型细节：使用YOLO-11作为对象检测模型，DeepSeek R1作为任务规划器和数据生成助手。L2MM是一个基于Transformer的模型，具有256维特征、4层、8个注意力头、1024维前馈层和一个线性头层。IOE具有类似的架构，但特征维度较小。
训练设置：收集了100万样本的数据集，分为训练集和测试集，比例为4:1。使用NVIDIA RTX 3080 Ti GPU进行训练。L2MM模型的训练参数包括0.1的dropout率、10^-4的学习率、512的批量大小、64的最大序列长度和10的运动损失系数β。使用AdamW优化器训练25个周期，总训练时间约为1小时。

机器人设置：LOVON可以应用于多种足式机器人。在实验中，评估了Unitree Go2、B2和H1-2三种模型。计算平台使用Jetson Orin，视觉平台包括机器人的内置摄像头和Realsense D435i摄像头。

运动模糊帧过滤的性能

研究运动模糊对目标检测性能的影响，并验证提出的运动模糊帧过滤方法的有效性。

实验方法：让机器人以0.3、0.5或0.7 m/s的固定速度接近背包、椅子或人。计算每个帧的拉普拉斯方差，并将其输入目标检测模型以获得预测置信度分数。

实验结果：发现拉普拉斯方差与YOLO置信度之间存在显著波动。通过设置模糊阈值，可以过滤掉运动模糊严重的帧。实验结果表明，当阈值设置为Tblur = 150时，所有数据集的合格帧率提高了约15%。将过滤方法整合到目标检测流程中后，合格帧率总体提高了25%。

在仿真环境中的评估

基准和评估指标：在Gym-Unreal基准的四个场景（UrbanCity、SnowVillage、ParkingLot和UrbanRoad）中进行评估。使用两个指标：集数长度（EL）和成功率（SR）。

性能比较：LOVON在大多数环境中的表现优于基线方法，例如在ParkingLot环境中，LOVON的平均集数长度为500，成功率为1.00，而EVT的平均集数长度为484，成功率为0.92。与TrackVLA相比，LOVON在训练时间上更高效，仅需1.5小时，而TrackVLA需要360小时。

在现实世界实验中的评估

开放世界适应性：LOVON能够处理日常生活中常见的各种大小和类型的物体，包括大型物体（如汽车）、中型物体（如人）和小型物品（如包）。
多目标跟踪：通过LLM规划器实现长时域目标导航，使机器人能够高效地跟踪多个目标。
动态跟踪：LOVON能够在动态环境中成功跟随移动目标，例如在平坦道路、螺旋楼梯和野草中行走。
抗干扰能力：即使目标物体被移动或机器人受到干扰（如被踢），机器人也能快速重新定位并继续搜索。

消融研究

模型参数的消融研究：研究了模型大小、数据集大小Nds、运动损失权重β和特殊标记[SEP]的包含与否对模型性能的影响。结果表明，中等大小的模型表现最佳，数据集大小对模型稳定性有影响，运动损失权重β对性能至关重要，特殊标记[SEP]对于区分不同输入组件（尤其是语言）是必要的。
过滤方法和状态数量的消融研究：评估了搜索状态的数量和帧过滤技术对目标丢失时导航效率的影响。实验结果表明，使用四个状态和帧过滤技术的配置（Case 3）在导航效率方面表现最佳。

结论与未来工作

结论:
- LOVON通过整合LLMs、开放词汇视觉检测和L2MM，有效地解决了足式机器人在开放世界环境中执行长时域任务的挑战。
- 通过拉普拉斯方差帧过滤和平均置信度平滑滤波器，显著提高了模型在实际应用中的性能。
未来工作:
- 在未来的工作中，论文计划进一步优化LOVON的架构，增强其与最新视觉语言模型的集成，以进一步提升其在具身智能导航任务中的能力。