清华大学联合项目 论文解读 | MoTo赋能双臂机器人:实现零样本移动操作

研究背景

移动操作是机器人领域的核心挑战,它使机器人能够在各种任务和动态日常环境中为人类提供帮助。传统的移动操作方法由于缺乏大规模训练,往往难以在不同任务和环境中实现泛化。而现有操作基础模型虽在固定基座任务中表现出强泛化性,却无法支持移动基座运动,难以直接应用于移动操作场景。

针对以上难题,清华大学等研究团队提出MoTo的零样本插件模块。该模块可与任何现成的固定基座操作模型结合,通过交互感知导航策略生成合适的基座停靠点,并利用视觉 - 语言模型(VLM)生成交互关键点,引导机器人移动至能成功执行固定基座操作的位置,最终实现零样本移动操作,且无需依赖移动操作专家数据。

这一方案解决了传统方法中导航与操作目标脱节导致的复合误差问题,同时突破了固定基座操作模型在移动场景中的应用限制。

松灵PiPER机械臂,以灵活组合赋能科研创新。单臂可精准操作,双臂能协同作业,轻松搭建专属双臂机器人实验平台。只需简单组合,即可获得满足实验需求的定制化机器人,让硬件适配不再成为科研阻碍,专注于核心技术的突破与论证。

论文核心方法论

交互感知导航策略:将移动操作任务分解为子任务,针对每个子任务确定目标对象,通过识别目标对象上的交互关键点(TK)和机械臂上的手臂关键点(AK),控制机器人移动至两关键点对齐的位置,确保机械臂能有效操作目标对象。

VLM-based 关键点生成:采用两阶段流程生成关键点。先利用DINOv2和SAM提取图像中的可操作点作为关键点提议,再通过VLM根据任务描述从提议中选择最合适的TK和AK;对于TK,还通过多视图投票机制聚合多视角预测,提升3D空间中的定位准确性。

关键点引导的优化:以最小化TK与AK距离为目标,结合碰撞成本(避免机器人与场景物体碰撞)、平滑性成本(保证运动轨迹连续平滑)和余量成本(确保机械臂有足够操作空间),通过双退火算法求解最优的移动基座和机械臂轨迹。

2MoTo的流程。基于机器人扫描RGB-D观测获取3D场景点云和图,我们利用视觉语言模型(VLM)和多视图一致性投票获取交互关键点,并通过提出的成本约束优化生成移动操作轨迹

硬件设施

机器人平台:

  • 仿真实验中采用Hello Robot作为代理;

  • 真实世界实验中,以HEXMOVE为基座,配备两个松灵PiPER组成的双臂移动操作机器人

传感器配置:

  • 配备Femto Bolt RGB-D传感器作为头部相机,用于获取高质量场景点云;

  • 两个Gemini 336L RGB-D传感器作为腕部相机,辅助操作任务执行;

  • 英特尔追踪相机T265用于获取机器人相机姿态,辅助场景重建。

  • 计算资源:仿真实验在8块RTX 3090 GPU上进行;真实世界实验在单块RTX 4060 GPU上完成

实验设计与突破

仿真实验:基于OVMM基准测试,该基准包含60个室内场景和18k + 日常物体3D模型,任务为 “将目标对象从容器A移至容器B”。对比MoTo与现有先进方法(如 Home-Robot、UniTeam等)在目标查找、抓取、容器查找和放置等阶段的成功率,验证其在仿真环境中的有效性。

 1:(OVMM)基准测试的对比结果。部分成功率表示每个阶段的执行情况,其前提是前一阶段成功完成。“RL” 和 “Heuristic” 分别指基于强化学习和启发式的物体放置方法。默认使用强化学习方法。

ablation研究 :针对优化成本项(碰撞、平滑性、余量)和关键点生成方式(不同视觉模型、是否融合多视图等)进行消融实验,分析各组件对性能的影响。

2:优化成本项和关键点生成变体的消融实验

真实世界实验:部署多种固定基座操作模型(AnyGrasp、iDP3、RDT-1B),测试机器人在 “取食物”“递水”“准备餐食” 等任务中的表现,通过任务成功率和子任务完成率评估 MoTo 的插件扩展性和实际应用效果。

移动操作新突破

 3:真实世界实验结果。所有方法在三类移动操作任务上均运行10次,图中的点代表每次测试的性能(彩色视图效果最佳)。

关键成果与突破

  • 技术突破:首次实现了零样本插件式移动操作框架,无需额外训练数据即可将任意固定基座操作模型扩展至移动场景,解决了传统方法泛化能力差、依赖大规模训练数据的问题。

  • 性能提升:在OVMM 仿真和真实世界实验中,成功率分别比最先进的移动操作方法高出2.68% 和16.67%,验证了其在不同场景下的有效性。

  • 应用价值:为机器人在家庭服务、制造业等领域的实际部署提供了通用解决方案,推动了移动操作技术从实验室向现实应用的转化。

  • 研究启示:强调了3D egocentric操作策略在提升移动操作性能中的潜力,为后续研究指明了方向。

结语

MoTo模块的提出,不仅为移动操作领域提供了一种全新的零样本解决方案,更打破了固定基座操作模型与移动场景之间的壁垒,推动了通用移动操作技术向实际应用迈出关键一步。这一研究的核心意义在于,它证明了通过插件式模块赋能现有机器人系统的可行性 —— 无需重构底层架构,即可让机器人在复杂环境中自主完成多样化任务,为家庭服务、智能制造等场景的自动化升级提供了高效路径。

由松灵PiPER机械臂组成的双臂移动机器人,进一步提升了复杂任务的执行效率。凸显了优质硬件平台与先进算法结合时产生的协同效应

论文详情:https://arxiv.org/pdf/2509.01658v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/98756.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/98756.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

go webrtc - 2 webrtc重要概念

webrtc是一套音视频传输技术生态,不是一个协议或一个什么东西。3种模式本文基于 SFU 形式阐述!重要概念:sfu 服务负责:信令 服务负责:peerConnection:track:房间:虚拟分组概念用户&a…

“下游任务”概念详解:从定义到应用场景

“下游任务”概念详解:从定义到应用场景 一、什么是“下游任务”? 在机器学习(尤其是深度学习)中,“下游任务”(Downstream Task)是相对“上游过程”而言的目标任务——可以理解为:我…

视频怎么做成 GIF?用 oCam 一键录制 GIF 动画超简单

GIF 动图因其生动直观、无需点击播放的特点,越来越受欢迎。你是否也曾看到一段有趣的视频,想把它做成 GIF 发给朋友或用在PPT里?其实,将视频片段转换为 GIF 并不需要复杂的视频剪辑技术,使用一款支持直接录制为 GIF 的…

Vue.config.js中的Webpack配置、优化及多页面应用开发

Vue.config.js中的Webpack配置、优化及多页面应用开发 在Vue CLI 3项目中,vue.config.js文件是工程化配置的核心入口,它通过集成Webpack配置、优化策略和多页面开发支持,为项目构建提供高度可定制化的解决方案。本文将从基础配置、性能优化、…

行业学习【电商】:直播电商的去头部化、矩阵号?

声明:以下部分内容含AI生成这两个词是当前直播电商和MCN领域的核心战略,理解了它们就理解了行业正在发生的深刻变化。一、如何理解“去头部化”?“去头部化” 指的是平台或MCN机构有意识地减少对超头部主播(如曾经的李佳琦、薇娅&…

【MFC视图和窗口基础:文档/视图的“双胞胎”魔法 + 单文档程序】

大家好,我是你的MFC编程小伙伴!学MFC就像探险古墓:到处是神秘的“房间”(窗口)和“宝藏”(数据)。今天咱们聊聊核心概念 – 视图、窗口和文档。这些是MFC的“骨架”,懂了它们&#x…

深度学习(六):代价函数的意义

在深度学习的浩瀚世界中,代价函数(Cost Function),又称损失函数(Loss Function)或目标函数(Objective Function),扮演着至关重要的角色,它就像一个导航员&…

Kable使用指南:Android BLE开发的现代化解决方案

概述 Kable(com.juul.kable:core)是一个专为Android蓝牙低功耗(BLE)开发设计的Kotlin协程友好库。它通过提供简洁的API和响应式编程模式,极大地简化了BLE设备交互的复杂性。本文将详细介绍Kable的使用方法,…

Android图案解锁绘制

使用到的库是Pattern Locker,根据示例进行了修改,把默认样式和自定义样式进行了合并调整。 设置密码 布局 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android"xm…

Kotlin 协程之 Flow 的理解使用及源码解析

前言 在前面的文章中&#xff0c;我们已经讨论了 Channel 的概念和基本使用以及 Channel 的高阶应用。这篇我们来看日常开发中更常用的Flow。 “冷流” 和 “热流” 的本质 先来梳理一下所谓的 “冷流” 和 “热流”。 核心概念 我们已经知道 Channel 是 “热流”&#xff…

简述ajax、node.js、webpack、git

本系列可作为前端学习系列的笔记&#xff0c;HTML、CSS和JavaScript系列文章 已经收录在前端专栏&#xff0c;有需要的宝宝们可以点击前端专栏查看&#xff01; 点赞关注不迷路&#xff01;您的点赞、关注和收藏是对小编最大的支持和鼓励&#xff01; 系列文章目录 简述ajax、…

经营帮会员经营:全方位助力企业高效发展,解锁商业新可能

在商业竞争愈发激烈的当下&#xff0c;企业若想脱颖而出&#xff0c;高效的经营管理体系至关重要。经营帮的会员经营板块&#xff0c;凭借丰富且实用的功能&#xff0c;为企业打造了一站式的经营助力平台&#xff0c;从多维度赋能企业&#xff0c;让发展之路更顺畅。会员经营与…

Vue 封装Input组件 双向通信

子组件<template><div class"box"><div class"box-left"><input blur"handleBlur" v-model"localInput" class"box-left-input"> </div><div class"box-right"><p style…

伽马(gamma)变换记录

此只记录伽马变换原理及其应用结果&#xff08;文章所有内容基于数字图像处理-冈萨雷斯&#xff09;&#xff0c;和直接用MATLAB代码生成伽马变换代码。一、原理伽马变换的公式很简答 就是一个有规律的幂运算 公式如下&#xff1a;一般在图像中进行应用是 C1 y为不同值时r的输…

电路学习(六)三极管

三极管是一种电流驱动元器件&#xff08;MOS管为电压驱动&#xff09;&#xff0c;在电路中可以充当开关&#xff0c;放大电流等作用。本文章参考了尚硅谷的视频资料。1. 什么是三极管&#xff1f;三极管又被称为晶体三极管&#xff08;Bipolar Junction Transistor&#xff0c…

配置docker常见问题

输入sudo yum install -y yum-utils device-mapper-persistent-data lvm2出现Cannot find a valid baseurl for repo: base/7/x86_64一、检查网络输入ping www.baidu.com出现PING www.a.shifen.com (220.181.111.1) 56(84) bytes of data. 64 bytes from 220.181.111.1 (220.18…

Python 实战:票据图像自动矫正技术拆解与落地教程

在日常办公自动化&#xff08;OA&#xff09;或财务数字化场景中&#xff0c;拍摄的票据常因角度问题出现倾斜、变形&#xff0c;不仅影响视觉呈现&#xff0c;更会导致 OCR 文字识别准确率大幅下降。本文将从技术原理到代码实现&#xff0c;手把手教你用 Python 打造票据图像自…

vue3+TS项目配置unocss

配置unocss &#xff08;1&#xff09;安装依赖 npm i unocss unocss/preset-uno unocss/preset-attributify -D npm install unocss/transformer-directives&#xff08;2&#xff09;根目录新建uno.config.ts文件 import { defineConfig } from "unocss"; impor…

嵌入式硬件工程师的每日提问

一、LDO与DC-DC的对比1&#xff09;同&#xff1a;两者都是将不稳定的直流输入电压转换为稳定的直流输出电压。2&#xff09;异&#xff1a;LDO&#xff1a;线性调节&#xff0c;通过内部功率晶体管&#xff0c;工作在线性区&#xff0c;稳定输出电压。类比&#xff1a;将湍急的…

从零到一使用Linux+Nginx+MySQL+PHP搭建的Web网站服务器架构环境——LNMP(下)

从零到一使用LinuxNginxMySQLPHP搭建的Web网站服务器架构环境——LNMP&#xff08;上&#xff09;https://coffeemilk.blog.csdn.net/article/details/151350565 一、Nginx与PHP-FPM整合原理 1.1、PHP-FPM配置文件 Nginx与PHP-FPM整合原理序号说明1 PHP-FPM是一个第三方的Fast…