麻省理工新突破:家庭场景下机器人实现精准控制,real-to-sim-to-real学习助力

麻省理工学院电气工程与计算机科学系Pulkit Agrawal教授,介绍了一种新方法,可以让机器人在扫描的家庭环境模拟中接受训练,为任何人都可以实现定制的家庭自动化铺平了道路。

本文将探讨通过Franka机器人在虚拟环境中训练的特点,研究人员根据手机扫描结果对家庭场景用的机器人进行模拟训练

图片

在许多自动化愿望清单中,排在首位的是一项特别耗时的任务:家务。 

有很多原因导致您在家中看不到很多真实的机器人。其中最主要的是非结构化和半结构化环境的问题。没有两个家是相同的,从布局到照明到表面到人和宠物。即使机器人可以有效地绘制每个家庭的地图,空间也总是在变化。

近几十年来,模拟已成为机器人训练的基础要素。它允许机器人在现实世界中尝试完成任务并失败数千次甚至数百万次,而这些尝试和失败所需的时间与机器人在现实世界中尝试一次所需的时间相同。

模拟失败的后果也比现实生活中的后果要低得多。想象一下,教机器人把杯子放进洗碗机需要它在这个过程中打碎 100 个现实生活中的杯子。

图片

研究员 Pulkit Agrawal 在与研究相关的视频中表示:“在虚拟世界中进行模拟训练非常有效,因为机器人可以练习数百万次。它可能打碎了一千个盘子,但这并不重要,因为一切都在虚拟世界中。”然而,就像机器人本身一样,当涉及到家庭等动态环境时,模拟只能达到一定程度。使模拟变得像手机扫描一样容易,可以大大提高机器人对不同环境的适应性。

事实上,创建一个足够强大的环境数据库最终会使系统在出现某些不可避免地移位的情况时更具适应性,无论是移动一件家具还是将盘子留在厨房柜台上。

“我们的目标是让机器人在单一环境中,在干扰、干扰、不同的光照条件和物体姿势变化的情况下,都能表现出色,”麻省理工学院 CSAIL 的 Improbable AI 实验室研究助理、最近一篇关于这项工作的论文的主要作者 Marcel Torne Villasevil 说道。“我们提出了一种利用计算机视觉领域的最新进展来动态创建数字孪生的方法。只需使用手机,任何人都可以捕捉现实世界的数字复制品,而且得益于 GPU 并行化,机器人可以在模拟环境中比现实世界更快地进行训练。我们的方法通过利用一些现实世界的演示来启动训练过程,从而消除了对大量奖励工程的需求。”

当然,RialTo 比简单地挥动手机(砰!)即可让家用机器人为您服务要复杂一些。首先,它使用您的设备通过 NeRFStudio、ARCode 或 Polycam 等工具扫描目标环境。重建场景后,用户可以将其上传到 RialTo 的界面进行详细调整,为机器人添加必要的关节等。

图片

经过改进的场景被导出并带入模拟器。在这里,目标是根据现实世界的动作和观察制定策略,例如从柜台上抓取杯子的策略。这些现实世界的演示在模拟中被复制,为强化学习提供了一些有价值的数据。“这有助于创建一个在模拟和现实世界中都行之有效的强大策略。使用强化学习的增强算法有助于指导这一过程,以确保该策略在模拟器之外应用时有效,”Torne 说。

图片

测试表明,无论是在受控的实验室环境中还是在更难以预测的现实环境中,RialTo 都能为各种任务制定强大的策略,在相同数量的演示下,其表现比模仿学习提高了 67%。这些任务包括打开烤面包机、将书放在书架上、将盘子放在架子上、将杯子放在架子上、打开抽屉和打开橱柜。对于每项任务,研究人员在三个难度不断增加的级别下测试了系统的性能:随机化物体姿势、添加视觉干扰物以及在任务执行过程中施加物理干扰。当与现实世界数据结合时,该系统的表现优于传统的模仿学习方法,尤其是在存在大量视觉干扰或物理干扰的情况下。

“这些实验表明,如果我们关心在某一特定环境中的稳健性,最好的想法是利用数字孪生,而不是试图通过在不同环境中进行大规模数据收集来获得稳健性,”不可思议的人工智能实验室主任、麻省理工学院电气工程与计算机科学 (EECS) 副教授、麻省理工学院 CSAIL 首席研究员、该研究的高级作者 Pulkit Agrawal 说。

参考完整视频 PNP机器人www.pnprobotics.com

麻省理工策略学习减轻操作员的负担缩小了 sim2real 差距

至于局限性,RialTo 目前需要三天时间才能完成全面训练。为了加快速度,该团队提到改进底层算法并使用基础模型。模拟训练也有其局限性,目前很难轻松实现模拟到现实的转移并模拟可变形物体或液体。

下一个层次

那么 RialTo 的下一步计划是什么呢?在之前努力的基础上,科学家们正在努力保持对各种干扰的稳健性,同时提高模型对新环境的适应性。“我们的下一步努力是使用预先训练的模型,加速学习过程,最大限度地减少人工输入,并实现更广泛的泛化能力,”Torne 说。

图片

Torne 表示:“我们对我们的‘即时’机器人编程概念非常热衷,机器人可以自主扫描周围环境并学习如何在模拟中解决特定任务。虽然我们目前的方法有局限性——例如需要人类进行一些初始演示,并且需要大量计算时间来训练这些策略(最多三天)——但我们认为这是实现‘即时’机器人学习和部署的重要一步。”“这种方法让我们更接近未来,机器人不需要预先存在的涵盖所有场景的策略。相反,它们可以在没有大量现实世界互动的情况下快速学习新任务。在我看来,与仅仅依赖通用的、包罗万象的策略相比,这一进步可以加速机器人技术的实际应用。”

“为了在现实世界中部署机器人,研究人员传统上依赖于从专家数据中进行模仿学习等方法,但这种方法成本高昂,或者强化学习可能不安全,”华盛顿大学计算机科学博士生 Zoey Chen 表示,他没有参与这篇论文。“RialTo 凭借其新颖的从真实到模拟到真实的管道,直接解决了现实世界 RL [机器人学习] 的安全约束和数据驱动学习方法的有效数据约束。这种新颖的管道不仅可以确保在现实世界部署之前在模拟中进行安全而稳健的训练,还可以显著提高数据收集的效率。RialTo 有潜力显著扩大机器人学习的规模,让机器人能够更有效地适应复杂的现实世界场景。”

“通过为策略学习提供廉价、可能无限的数据,模拟在真实机器人上展现了令人印象深刻的能力,”华盛顿大学计算机科学博士生 Marius Memmel 补充道,他没有参与这项研究。“然而,这些方法仅限于一些特定场景,构建相应的模拟既昂贵又费力。RialTo 提供了一种易于使用的工具,可以在几分钟内重建真实环境,而不是几个小时。此外,它在策略学习过程中大量使用收集到的演示,最大限度地减轻了操作员的负担,并缩小了 sim2real 差距。RialTo 展示了对物体姿势和干扰的稳健性,无需大量模拟器构建和数据收集即可展示出令人难以置信的真实世界性能。”

图片

Torne 与资深作者、华盛顿大学助理教授 Abhishek Gupta 和 Agrawal 共同撰写了这篇论文。其他四名 CSAIL 成员也获得了认可:EECS 博士生 Anthony Simeonov SM '22、研究助理 Zechu Li、本科生 April Chan 和 Tao Chen PhD '24。Improbable AI Lab 和 WEIRD Lab 成员也在开发该项目的过程中提供了宝贵的反馈和支持。

这项研究得到了索尼研究奖、美国政府和现代汽车公司的部分支持,并得到了华盛顿具身智能和机器人开发实验室 (WEIRD) 的协助。研究人员在2024年机器人科学与系统 (RSS 2024) 会议上展示了他们的研究成果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/diannao/85490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux程序管理练习题

Linux程序管理100题 一、Linux程序与进程(1-15) 程序、进程、线程的本质区别是什么? 答案:程序是静态指令集,进程是运行中的程序实例,线程是进程内的执行单元 进程的并发性和交往性体现在哪些方面&#xf…

虚幻基础:模型

能帮到你的话,就给个赞吧 😘 文章目录 资源模型:骨架/骨骼模型动画:一系列姿势补帧:只需设定关键姿势,则系统在关键帧姿势之间自动生成动画。姿势的变换:即骨骼的变换 动画蓝图:执行…

《Discuz! X3.5开发从入门到生态共建》第1章 Discuz! 的前世今生-优雅草卓伊凡

《Discuz! X3.5开发从入门到生态共建》第1章 Discuz! 的前世今生-优雅草卓伊凡 第一节 从康盛创想到腾讯收购:PC时代的辉煌 1.1 Discuz! 的诞生:康盛创想的开源梦想 2001年,中国互联网正处于萌芽阶段,个人网站和论坛开始兴起。…

如何打包conda环境从一台电脑到另外一台电脑

在 Ubuntu 系统下,使用的是 VSCode 和 Conda 环境开发项目,想要将整个 Conda 环境从一台电脑迁移到另一台电脑,可以通过以下步骤来实现打包和导入: ✅ 一、在原电脑上导出 Conda 环境 1. 激活你要导出的环境 conda activate you…

2025GDCPC广东省赛游记(附赛时代码)

我觉得算是给swan的自证之旅画上一个句号吧...说实话HDU给我带来的不止是排位上的压力,更多的是对自己能力的怀疑,特别是pluto不明说但是我很清楚的看不起(没有责备本人的意思),evil和jxj之类的总感觉看到我就是看小丑…

MySQL 修改数据的全链路流程

MySQL 修改数据的全链路流程(InnoDB) 全链路流程图关键步骤详解1. 建立连接阶段2.SQL解析与优化3. InnoDB内存操作4. 日志记录过程5. 二阶段提交(2PC) 磁盘同步机制1. Redo Log刷盘策略(innodb_flush_log_at_trx_commi…

兰亭妙微十六年高水准交互设计公司

北京兰亭妙微(蓝蓝设计)成立于 2008 年(前身为设计工作室,2011 年正式注册),由清华团队主创,专注软件和互联网 UI/UE 设计开发 16 年。我们提供从需求调研、界面设计到开发落地的全流程服务&…

【脚本 完全参数化的通用 APT 源配置方案-Debian/Ubuntu】

通过脚本在 Debian/Ubuntu 系统上一键切换 APT 源 如Dockerfile中 使用某个源(比如 aliyun) 假设你的目录结构是: . ├── Dockerfile └── switch-apt-source.shFROM ubuntu:22.04# 把脚本拷贝到镜像中 COPY switch-apt-source.sh /us…

学习日记-day20-6.1

完成目标&#xff1a; 知识点&#xff1a; 1.集合_Collections集合工具类 方法:static <T> boolean addAll(Collection<? super T> c, T... elements)->批量添加元素 static void shuffle(List<?> list) ->将集合中的元素顺序打乱static <T>…

个人总结八股文之-基础篇(持续更新)

一、集合的分类有哪些&#xff1f; Java集合框架主要分为两大类&#xff1a;Collection和Map Collection主要分为以下三类&#xff1a; List&#xff1a;有序集合&#xff0c;允许重复元素。常见的实现类有ArrayList、LinkedList和Vector。 Set&#xff1a;无序集合&#xf…

leetcode hot100刷题日记——35.子集

解答&#xff1a; 方法一&#xff1a;选or不选的dfs&#xff08;输入视角&#xff09; 思路&#xff1a;[1,2,3]的全部子集可以看成是对数组的每一位数字做选择。 eg.空集就是一个数字都不选&#xff0c;[1,2]就是1&#xff0c;2选&#xff0c;3不选。 class Solution { pub…

华为OD机试真题——生成哈夫曼树(2025A卷:100分)Java/python/JavaScript/C/C++/GO六种最佳实现

2025 A卷 100分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析; 并提供Java、python、JavaScript、C++、C语言、GO六种语言的最佳实现方式! 本文收录于专栏:《2025华为OD真题目录+全流程解析/备考攻略/经验分享》 华为OD机试真题《生成…

房屋租赁系统 Java+Vue.js+SpringBoot,包括房屋类型、房屋信息、预约看房、合同信息、房屋报修、房屋评价、房主管理模块

房屋租赁系统 JavaVue.jsSpringBoot&#xff0c;包括房屋类型、房屋信息、预约看房、合同信息、房屋报修、房屋评价、房主管理模块 百度云盘链接&#xff1a;https://pan.baidu.com/s/1KmwOFzN9qogyaLQei3b6qw 密码&#xff1a;l2yn 摘 要 社会的发展和科学技术的进步&#xf…

Unity 中 Update、FixedUpdate 和 LateUpdate 的区别及使用场景

在Unity开发中,Update、FixedUpdate 和 LateUpdate 是生命周期函数中最常见也最容易混淆的一组。 一、调用时机 方法名调用频率调用时机说明Update()每帧调用一次跟随帧率(帧率高则调用频率高)FixedUpdate()固定时间间隔调用默认每 0.02 秒执行一次LateUpdate()每帧调用一次…

Docker镜像之windows系统

https://github.com/dockur/windows 在 Docker 容器中运行 Windows 功能 ISO 下载器KVM 加速基于网页的查看器 使用方法 启动容器并通过浏览器连接到端口 8006。整个安装过程将全自动完成&#xff0c;无需手动干预。当桌面界面出现时&#xff0c;表示 Windows 安装已完成&a…

C# 用户控件(User Control)详解:创建、使用与最佳实践

在C#应用程序开发中&#xff0c;用户控件&#xff08;User Control&#xff09;是一种强大的工具&#xff0c;它允许开发者将多个标准控件组合成一个可复用的自定义组件。无论是Windows Forms还是WPF&#xff0c;用户控件都能显著提高UI开发的效率&#xff0c;减少重复代码&…

pikachu靶场通关笔记09 XSS关卡05-DOM型XSS-X

目录 一、XSS 二、DOM型XSS 三、源码分析 1、打开DOM-X型XSS关卡 2、XSS探测 3、源码分析 四、渗透实战 1、Payload1 2、Payload2 3、Payload3 五、DOM型XSS与DOM-X型XSS区别 本系列为通过《pikachu靶场通关笔记》的XSS攻击关卡(共10关&#xff09;渗透集合&#xf…

湖北理元理律所:企业债务重组中的“法律缓冲带”设计

一、担保链危机的法律拆解技术 中小企业债务困局多源于担保链蔓延。本所处理某制造企业案例时&#xff0c;运用三层法律工具阻断风险传导&#xff1a; 1. 主合同审查 → 发现银行擅自变更借款用途 → 援引《民法典》第695条解除担保 2. 股东责任切割 → 证明企业财产独立 …

调整数据集的方法

我们对worldquant中的数据&#xff0c; 对数据频率怎么算 在 WorldQuant 平台中&#xff0c;数据更新频率是影响量化策略有效性、回测准确性和实盘交易表现的核心因素之一。它决定了数据的时效性和连续性&#xff0c;直接关系到策略能否捕捉市场动态、应对突发事件或适应不同…

[Linux] Linux 系统从启动到驱动加载

Linux 系统从启动到驱动加载 文章目录 Linux 系统从启动到驱动加载一、硬件上电与 BIOS/UEFI 阶段1. 1 硬件上电初始化1.2 BIOS/UEFI执行过程1.3 Bootloader加载细节 二、Bootloader 阶段三、Linux 内核初始化3.1 架构相关初始化&#xff08;setup_arch&#xff09;3.2 核心子系…