TASTE-Rob:推进面向任务的手-目标交互视频生成,实现可通用的机器人操作

25年3月来自香港中文大学的论文“TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation”。

本文也是在解决现有数据集和模型在面向任务的手部-目标交互视频生成方面的关键限制,这是为机器人模仿学习生成视频演示的关键方法。当前的数据集,例如 Ego4D [16],经常受到视角不一致和交互错位的影响,导致视频质量下降并限制了它们在精确模仿学习任务中的适用性。为此,推出 TASTE-Rob——一个开创性的大规模数据集,包含 100,856 个以自我为中心的手部-目标交互视频。每个视频都与语言指令精心对齐,并从一致的摄像机视角录制,以确保交互清晰度。通过微调 TASTE-Rob 上的视频扩散模型 (VDM),实现逼真的目标交互,尽管手部抓握姿势偶尔存在不一致的情况。为了增强真实感,引入一个三阶段姿势细化流程,可提高生成视频中手势的准确性。所挑选的数据集,加上专门的姿势细化框架,在生成高质量、面向任务的手部物体交互视频方面提供显著的性能提升,从而实现卓越的可通用机器人操作。


其收集一个海量且多样化的以自我为中心、面向任务的手-目标交互(HOI)视频数据集 TASTE-Rob,其中包含 100,856 对视频及其对应的语言任务指令。为了服务于 HOI 视频生成,TASTE-Rob 需要实现以下目标:1)每段视频均采用静态摄像机视角录制,并包含与任务指令紧密契合的单一动作。2)涵盖多样化的环境和任务。3)展现不同 HOI 场景中的各种手势。

数据收集策略与摄像机设置

为了实现第一个目标,用多个配备广角镜头的摄像机,能够拍摄 1080p 的以自我为中心的视频。在每次录制过程中,进行以下改进。
首先,由于数据收集旨在为 IL 中演示生成面向任务的 HOI 视频,而为了实现有效的机器人模仿学习,演示通常从固定的摄像机视点录制,因此确保在录制过程中不会发生摄像机视角的变化。此外,如图所示,专门调整摄像机视角以匹配 Ego4D [16] 的头戴式摄像机设置,确保与自我中心视角保持一致。

第二个目标是确保 TASTE-Rob 中的语言任务指令和视频动作之间精确对齐,这是保持生成的 HOI 视频中动作完整性的关键方面。与 Ego4D [16] 通过头戴式摄像机捕获日常活动的扩展记录并分割成更短的片段不同,本文采用了更受控制的收集协议:1) 每个视频的时长严格限制在 8 秒以内,并捕获单个动作。 2)采集器遵循结构化的记录流程:按下“开始记录”按钮,根据提供的指令执行指定的HOI任务,并在任务完成后停止记录。这种方法确保了操作和任务指令之间的精确对应。

数据多样性

环境和任务的分布。为了实现广泛的泛化,TASTE-Rob 中的视频录制于不同的环境中,涵盖广泛的 HOI 任务。如图所示,环境包括厨房、卧室、餐桌、办公桌等地点。收集者需要与各种常用物品进行交互,并执行拾取、放置、推动、倾倒等任务。为了进一步确保任务的多样性,考虑不同的手部使用模式。具体来说,TASTE-Rob 包含 75,389 个单手任务视频和 25,467 个双手任务视频。

抓握手的分布。为了确保手势的多样性,考虑两个主要因素:不同的手掌方向(整体姿势)和不同的抓握姿势(细节姿势)。为了展示手势的多样性,利用 HaMeR [34] 提取手势参数并分析基于这些参数的分布。

如表所示,分析 TASTE-Rob 中 HOI 交互过程中手掌方向的分布。分析揭示了以下几点:1)手掌朝下(0° -180°)的手势最为常见,因为这种方向适合抓握物体。2)手掌朝左(90° -270°)的手势比朝右的手势略多,这可能是因为所有收藏家都是右撇子,自然更喜欢用右手来操作物体。

请添加图片描述

如下两个图中提供手部抓握姿势分布的分析。鉴于拇指、食指和中指在 HOI 中起主导作用,重点研究了这些手指之间的夹角及其各自的曲率分布。

如图中的分析显示夹角的广泛分布,表明手部方向各异。

请添加图片描述

如下图揭示了两个关键发现:1)食指和中指的曲率分布呈现出相似的模式,反映了它们在 HOI 动作期间的同步弯曲。2)数据集捕捉了各种各样的抓握姿势,这些姿势是由各种被操纵的物体驱动的。

请添加图片描述

请添加图片描述

如表所示,对 TASTE-Rob 与现有的以自我为中心的 HOI 视频数据集进行比较。

请添加图片描述

TASTE-Rob 是一个专门为面向任务 HOI 视频生成设计的视频数据集,它也可以作为 IL 演示的宝贵资源。鉴于IL视频演示是从固定摄像机视角录制的,并且仅包含与任务指令一致的单个动作,在相同设置下收集HOI视频,这使得TASTE-Rob与其他数据集有所区别。此外,为了提高对目标物体的理解,在语言任务指令中加入多种物体限定词。借助TASTE-Rob,能够生成高质量的HOI视频演示,从而实现IL。

给定一个环境图像和一段任务描述,生成的面向任务的 HOI 视频需要满足:1)准确的任务理解:正确识别要操作的目标以及如何操作它。2)可行的 HOI:在整个操作过程中保持一致的手部抓握姿势。

如图中第一阶段区域所示,虽然由单个 VDM (vˆ_c) 生成的视频展现准确的任务理解,但在保持一致的抓握姿势方面表现出有限的保真度。为了满足这两个要求,提出一个三阶段姿势细化流程,如图所示:第一阶段:采用可学习的图像-到-视频 (I2V) 扩散模型生成满足“准确任务理解”要求的粗略 HOI 视频。第二阶段:从该粗略视频中提取手势序列,并使用可学习的运动扩散模型 (MDM) 对其进行细化 [45]。第三阶段:使用细化的手势序列生成满足两个要求的高保真 HOI 视频。

请添加图片描述

在本研究中,探索基于 DynamiCrafter [54](一个强大的 I2V 潜扩散模型)的 HOI 视频生成。假设 T 和 v 分别表示任务语言描述、环境图像和真实视频帧。DynamiCrafter 在紧凑的潜空间中学习去噪过程:v 通过编码器 E 编码到紧凑的潜在空间中,得到潜表示 z = E(v),并通过解码器 D 进行解码。在这个潜空间中,该模型以 T 和 i 为条件,执行前向扩散和引导去噪过程。

MDM [45] 采用独特的 Transformer 编码器架构,在生成人体运动序列方面表现出色。MDM 不是通过预测单步噪声,而是直接生成干净的运动序列。设 p 表示运动序列,M 表示 MDM 网络。其中,p_0 ∼ p_data § 和 p_T ∼ N (0, I)。训练结束后,MDM 通过 T 步去噪过程生成最终的干净运动序列 pˆ_0。然而,在每一步中,MDM 不是通过单步去噪直接生成 p_t−1,而是首先根据 p_t 预测干净的运动序列 pˆ_0,t。然后,重新引入噪声得到 p_t−1,通过重复此过程 T 次,MDM 生成最终干净的运动序列pˆ_0,0,记为pˆ_0。

第一阶段:粗略动作规划器

可学习的粗略动作规划器,旨在生成基于任务描述 T 和环境图像 i 的粗略 HOI 视频 vˆ_c。具体来说,在 TASTE-Rob 上对 DynamiCrafter [54] 进行微调,将其用作粗略动作规划器,记为 V。

训练。在微调过程中,采用与 DynamiCrafter [54] 类似的训练策略。为了充分利用 DynamiCrafter 强大的时间处理能力,同时使其适应本文特定的 HOI 视频生成,仅对其图像上下文投影器和其去噪 U-Net中的空间层进行微调。训练目标保持一致,其中可训练参数 θ_V 表示图像上下文投影器和空间层的参数。

手-物体交互不一致问题。生成的粗略 HOI 视频展现准确的任务理解能力,例如识别要操作的物体并确定其目标位置。然而,如上图 p_c 所示,抓取姿势在操作过程中表现出时间上的不一致性,表明缺乏运动连贯性。具体而言,这些不一致性指的是抓取姿势随时间发生的不良变化,表现为手势的不自然变化,而理想情况下,手与被抓物体之间的相对位置应该保持稳定。如图的 p_c 所示,绿色手势展示一种捏的手势,这与黄色手势的抓取姿势不一致,并且不适合被操作的目标物体。

第二阶段:修改手势序列

为了解决 HOI 不一致问题,训练一个图像-到-手势参数的 MDM 模型 M。该模型用于细化从粗略视频 vˆ_c 中提取的手势序列 p_c。具体来说,将 p_c 定义为手势关键点序列的归一化坐标,其中 L_p 表示序列长度,N_h 表示手势关键点的数量。
训练:可学习模型 M 旨在以任务描述 T 和环境图像 i 作为输入,预测精细的人体手势序列。为此,扩展原始的 MDM [45] 框架,通过一个附加的图像分支引入环境信息。如图所示,与 [45] 中的文本条件分支类似,新增的图像分支集成环境图像 i 的 CLIP [37] 类特征。

请添加图片描述

当通过 T 步去噪过程直接生成最终的干净姿势序列 pˆ 时,pˆ 实现物理上合理的手部运动,但表现出有限的空间意识。相反,p_c 表现出显著的空间意识。为了解决这个限制,用 M 来优化 p_c,而不是从高斯噪声生成。具体来说,用 p_0,N_rv 初始化 M 的去噪过程,将 p_c 设置为 p_0,N_rv。通过 N_rv 步去噪,优化 p_c 以获得最终的干净手部姿势序列 pˆ,该序列同时满足空间精度和运动可行性。

第三阶段:基于精细姿态的再生

利用精细化的​​手势序列,生成附加姿态条件 pˆ 的细粒度 HOI 视频。受 ToonCrafter [55] 的启发,训练一个与帧无关的姿态编码器 S 来控制生成视频中的手势。将 S 设计为一个逐帧适配器,它以 pˆ 为条件,独立地调整每帧的中间特征:F^i = S(s^i_inject, z^i, t),其中 s^i 是 pˆ 的可视化图像序列,F^i_inject 的处理方法类似于 ControlNet [62]。

在训练过程中,采用与 ToonCrafter [55] 类似的策略,其中 V 的所有参数都被冻结,并且只训练 S 的参数(表示为 η)。

最后,将生成的优质 HOI 视频 vˆ 作为 IL 的视频演示,并使用 Im2Flow2Act 策略模型实现机器人操作 [58]。如图所示,以生成的 HOI 视频作为演示,展示模仿学习的结果,也证实其在实现机器人操作方面的有效性。

实施

训练过程中,在 TASTE-Rob 数据集的训练集上训练模型。第一阶段:基于 DynamiCrafter 对粗略动作规划器进行微调,步长为 30K,批次大小为 16,学习率为 5 × 10−5。第二阶段:训练 MDM,步长为 100K,批次大小为 64,学习率为 1 × 10−4。第三阶段:基于 SD 对姿态编码器进行微调,步长为 30K,批次大小为 32,学习率为 5 × 10−5。在推理过程中,用 50 步去噪过程生成视频,并使用 Nrv 为 10 来优化姿态序列。

基线与比较

选择了四种现有的强大的 I2V 扩散模型——DynamiCrafter [54]、consistI2V [38]、Open-Sora Plan [26] 和 CogVideoX [60]——作为基线,并对这些基线与本文方法进行了比较实验。图中给出 TASTE-Rob-Test 和真实环境下视频生成性能的定性比较。

请添加图片描述

下表中给出 TASTE-Rob-Test 上的定量比较,结果证明本文方法卓越的视频质量和更好的泛化能力。根据以上实验,所有现有的强大的通用 VDM 都无法很好地完成操作任务,因此不适合生成 HOI 视频演示。鉴于其他两个评估方面侧重于衡量生成视频的细粒度细节,在此省略与这些基线方法的进一步比较。

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909122.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Trae AI IDE 全网最全的使用教程

Trae AI IDE 全网最全的使用教程 近期,字节发布了一款 AI Coding 产品 —— Trae,它是一款对标 Cursor 和 Windsurf 的全新 IDE,也是一款真正为中文开发者量身定制的工具,可谓是中文开发者的福音。 其优雅的 UI、丝滑的交互、母语…

GraspCorrect:通过视觉-语言模型引导反馈进行机器人抓握矫正

25年3月来自韩国 POSTECH 的论文 “GraspCorrect: Robotic Grasp Correction via Vision-Language Model-Guided Feedback”。 尽管机器人操作技术取得了显著进步,但实现一致且稳定的抓取仍然是一项根本挑战,常常限制复杂任务的成功执行。分析表明&…

浏览器兼容-polyfill-本地服务-优化

babel和webpack结合 npx babel src --out-dir dist --presetsbabel/preset-env 这是把src下面的东西都用babel转化一下 webpack可以和babel结合使用,首先下载一个这东西: npm install babel-loader -D webpack配置: const path requir…

组织结构图软件:数据驱动的可视化架构管理工具

1. 组织结构图软件概述 组织结构图概念 组织结构图是一种图形化工具,用于展示组织内部的层级关系、部门职能和人员分工。它通过清晰的线条和文本框连接,直观呈现企业或机构的架构,帮助管理者和员工快速理解组织的运作模式。 重要性 在企业…

大数据学习(138)-Hive数据分析3

​​​​🍋🍋大数据学习🍋🍋 🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言&#x1f4…

深度学习环境搭建(pycharm+yolov5)

B站 :道传科技上位机 观看教程 一、pycharm的安装 pycharm windows版本下载地址:Download PyCharm: The Python IDE for data science and web development by JetBrains 下载社区版本(日常学习使用够用了),专业版…

K8S中应用无法获取用户真实ip问题排查

现象 领导反馈生产环境的用户ip有问题。登陆到这个页面,发现是所有的用户ip都是172.30.94.97,这是个内部网络ip. 排查过程 1 登陆到应用前端nginx, 查看nginx的请求日志 172.30.94.97 - - [17/Jul/2024:02:02:54 0000] "POST /***/n…

2.倒排索引

传统数据库mysql使用的是正向索引 词条是不允许重复的,给词条创建唯一索引,根据词条查找的速度就很快了。

【Android Studio】新建项目及问题解决

新建项目 按照《Android 第一行代码》中 1.3 小节的步骤创建项目。 注意:Minimum API Level 用于设置项目的最低兼容版本。Android 5.0 以上的系统已经占据超过了 99.9% 的 Android 市场份额,因此这里指定为 API 21: Android 5.0 即可。 问题解决 &…

SX1268低功耗sub-1g芯片支持lora和GFSK调制

SX1268 射频收发器是长距离无线应用的理想设备,支持410-810MHZ。它专为长电池寿命而设计,仅消耗4.2 mA的主动接收电流。SX1268 可以使用高效的集成功率放大器在490 MHz传输高达 22 dBm 的信号。在 780 MHZ时,SX1268 在天线端口传输10dBm的信号…

C#高级:利用反射让字符串决定调用哪个方法

一、反射的实现 using System; using System.Reflection; using System.Threading.Tasks;public class Calculator {public int Add(int a, int b){return a b;}public int Subtract(int a, int b){return a - b;}public int Multiply(int a, int b){return a * b;}public do…

图像二分类任务推荐使用Sigmoid函数‌

‌图像二分类任务中可以使用Softmax作为激活函数,但通常更推荐使用Sigmoid函数‌。Softmax函数可以将多个类别的输出转换成概率分布,适合多分类任务。在二分类任务中,虽然可以使用Softmax,但它会生成两个输出值(每个类…

湖北理元理律师事务所:债务优化的法律逻辑与生活平衡术

在债务纠纷数量年均增长19%的背景下(最高人民法院2023年数据),专业法律服务机构的价值不仅在于解决纠纷,更在于重构债务人与生活的平衡关系。湖北理元理律师事务所的实践显示,科学的债务优化需同时满足三个维度&#x…

window 显示驱动开发-处理视频帧

Microsoft Direct3D 运行时调用用户模式显示驱动程序的 VideoProcessBeginFrame 和 VideoProcessEndFrame 函数,以指示用户模式显示驱动程序可以处理视频帧的这些函数调用之间的时间段。 在用户模式显示驱动程序可以处理任何视频帧之前,Microsoft Direct…

基于 React Native for HarmonyOS5 的跨平台组件库开发指南,以及组件示例

基于 React Native for HarmonyOS5 的跨平台组件库开发,需融合分层架构设计、鸿蒙原生能力桥接及性能优化技术,核心指南如下: ‌一、分层架构设计‌ 采用 ‌模块化分层结构‌,隔离平台差异逻辑: ├── common_har …

一站式了解单例模式

引言 这是设计模式专栏的第一篇文章,在这个专栏里面会讲到我们在开发中经常使用的设计模式,我会用心将它们解析,然后讲给你们听,如果感兴趣可以持续关注这个专栏❤️ 这次我们要讲的是单例模式,这个在大厂面试中十分…

Java应用Flink CDC监听MySQL数据变动内容输出到控制台

文章目录 maven 依赖自定义数据变化处理器flink cdc监听验证 maven 依赖 <properties><flink.version>1.14.0</flink.version><flink-cdc.version>2.3.0</flink-cdc.version></properties><dependencies><!-- Flink dependencie…

猎板厚铜PCB工艺能力如何?

在电子产业向高功率、高集成化狂奔的今天&#xff0c;电路板早已不是沉默的配角。当5G基站、新能源汽车、工业电源等领域对电流承载、散热效率提出严苛要求时&#xff0c;一块能够“扛得住大电流、耐得住高温”的厚铜PCB&#xff0c;正成为决定产品性能的关键拼图。而在这条赛道…

业务:资产管理功能

文章目录 一、项目背景1.1概述1.2编写目的 二、注意点说明三、页面效果四、代码AssetManagementControllerHwinfoAssetManagementHwinfoAssetManagementServiceHwinfoAssetManagementServiceImplHwinfoAssetManagementMapperHwinfoAssetManagementMapper.xmlSfpAssetManagement…

【MySQL进阶】MySQL程序

目录 一.有哪些MySQL程序 二. mysqld —— MySQL服务器 三.mysql——MySQL客户端 3.1.连接mysql客⼾端 3.2.mysql客户端选项 3.2.1.mysql常用选项 3.2.2.在命令⾏中使⽤选项 3.3.MySQL 选项&#xff08;配置&#xff09;文件 3.3.1.Linux环境下默认配置文件的路径 3.…