CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了

关注gongzhonghao【CVPR顶会精选

1.导读

1.1 论文基本信息

  • 论文标题:《HOLODECK: Language Guided Generation of 3D Embodied AI Environments》

  • 作者Yue Yang*1, Fan-Yun Sun*2, Luca Weihs*4, Eli Vanderbilt4, Alvaro Herrasti4,Winson Han4, Jiajun Wu2, Nick Haber2, Ranjay Krishna3,4, Lingjie Liu1,Chris Callison-Burch1, Mark Yatskar1, Aniruddha Kembhavi3,4, Christopher Clark4

  • 作者单位宾夕法尼亚大学、斯坦福大学、华盛顿大学、艾伦人工智能研究所等

  • 发表会议:CVPR(计算机视觉与模式识别会议)

  • 论文链接https://arxiv.org/abs/2312.09067

图灵学术论文辅导

2.论文概述

2.1 问题与背景

该论文提出了一种名为HOLODECK的系统,旨在通过文本描述自动生成多样化、可定制且可交互的3D具身智能环境,以解决现有3D环境生成方法需要大量人工投入且多样性受限的问题。HOLODECK利用大型语言模型的常识知识来理解复杂的用户查询,并通过约束优化方法来合理布局场景中的物体,从而确保生成环境的物理合理性和语义一致性

图片

2.2 系统模块核心

HOLODECK系统的核心在于其模块化设计,它将复杂的3D场景生成任务分解为四个子模块:楼层与墙体、门窗、物体选择和基于约束的布局设计。这种方法使其能够根据用户输入的提示词,自动生成符合特定风格或包含精细化需求的场景。论文通过大规模人类评估,证明HOLODECK生成的住宅场景优于现有的程序化基线方法,并且能够生成高质量的多样化场景。此外,研究还展示了HOLODECK在具身智能中的应用,证明了使用HOLODECK生成的新颖场景训练智能体,可以显著提升其在零样本物体导航任务中的泛化能力 。

图片

3.研究背景及相关工作

3.1 具身智能环境的挑战

具身智能体的训练通常依赖于模拟器环境。然而,现有的3D环境生成方法面临着诸多挑战。传统方法如人工设计或3D扫描,需要耗费大量人力和专业知识,且难以大规模扩展和保证场景的多样性。虽然程序化生成框架能够生成大规模交互式环境,但其依赖于硬编码规则,限制了场景的丰富性和可定制性。

图片

3.3 2D基础模型与3D场景生成

一些工作尝试将2D基础模型应用于文本驱动的3D场景生成。然而,这些方法通常会产生网格失真等明显伪影,且缺乏具身智能所需的交互性。另一些模型虽然专注于特定的任务,如平面图生成或物体排列,但它们通常缺乏整体场景的一致性,且严重依赖于特定任务的数据集。

图片

3.3 文本驱动的3D生成

早期的文本驱动3D生成工作主要侧重于从类别特定的数据集中学习3D形状或纹理。随着大型视觉-语言模型的出现,实现了零样本的3D纹理和物体生成。但这些方法在生成复杂3D场景时表现不佳。与这些方法不同,HOLODECK利用了一个包含海量资产的3D数据库,以生成语义精确、空间高效且可交互的3D环境 。

4.实验设计和方法

4.1 总体架构设计

HOLODECK是一个基于A12-THOR框架并结合了Objaverse海量资产的系统,其核心思想是利用大型语言模型将高级别的自然语言描述转化为一系列用于构建3D场景的低级别指令。整个场景的生成过程被分解为四个相互协作的模块,每个模块都通过与LLM进行多轮对话来完成特定的任务。

楼层与墙体模块:

  • 该模块负责创建房间的平面图、构建墙体结构,并为地板和墙壁选择合适的材料。LLM会直接生成房间的坐标和连接信息,每个房间被定义为由四个元组坐标确定的矩形。该模块能够根据复杂的输入生成精细的多房间平面图。此外,它还能从236种材料和148种颜色中进行匹配,以实现场景的语义定制化。

图片

物体选择模块:

  • 该模块允许LLM根据场景描述来选择合适的物体。HOLODECK利用庞大的Objaverse资产库,根据LLM建议的描述和尺寸来检索最佳的3D资产。

基于约束的布局设计模块:

  • HOLODECK预定义了十种空间关系约束,分为五类:全局、距离、位置、对齐和旋转。这些约束被视为软约束,并通过一个优化算法来解决,以找到满足最多约束的合理布局。同时,系统还强制执行硬约束,以防止物体碰撞并确保所有物体都在房间边界内。

图灵学术论文辅导

5. 实验结果分析

5.1 住宅场景的人类评估

在一项与PROCTHOR的对比研究中,680名参与者对HOLODECK和PROCTHOR生成的住宅场景进行了评估。结果显示,在资产选择、布局一致性和整体偏好三个方面,人类评估者都明显偏向HOLODECK。

在整体偏好上,64.4%的评估者更喜欢HOLODECK,而只有23.3%的评估者更喜欢PROCTHOR。此外,使用CLIP分数进行的视觉一致性量化评估也显示,HOLODECK的得分显著高于PROCTHOR,且接近人类专家设计的场景,进一步证明了其生成视觉连贯场景的能力。

图片

5.2 多样化场景的生成能力

为了评估HOLODECK在住宅场景之外的表现,研究人员让人类对52种不同类型的场景进行了评分。结果表明,HOLODECK在超过一半(28/52)的场景类型上获得了比PROCTHOR更高的平均偏好分数。

图片

5.3 在具身智能中的应用

论文展示了HOLODECK在具身智能中的一个激动人心的应用:零样本物体导航。研究人员在一个名为NOVELTYTHOR的新颖基准上进行了实验。结果显示,使用HOLODECK生成的新场景进行微调的智能体,其零样本导航成功率和路径长度加权成功率都显著高于基线模型。这表明HOLODECK生成的训练环境能够帮助智能体更好地泛化到以前未见过的场景和物体类型。论文指出,HOLODECK在物体放置上的能力,是其优于基线的主要原因之一 。

图片

6.论文总结展望

6.1 论文总结

该论文成功地提出了HOLODECK系统,一个由大型语言模型驱动的、能够从文本描述中生成多样化和可交互的3D具身智能环境的系统。

HOLODECK通过将生成过程分解为多个模块,并利用LLM的常识知识和一种新颖的基于空间关系约束的布局优化方法,克服了传统方法在多样性、可定制性和物理合理性方面的局限。

大规模的人类评估结果一致表明,HOLODECK生成的场景质量优于现有基线,且能够很好地泛化到各种场景类型。此外,通过零样本物体导航实验,研究还验证了HOLODECK生成的场景在训练具身智能体方面的实用性。

图片

6.2 论文展望

尽管HOLODECK取得了显著成就,但论文也指出了一些局限性。目前,该系统在处理需要非常复杂布局或需要其资产库中不存在的独特物体(如牙科诊所的X光机)的场景时仍然面临挑战。未来工作的方向可以包括扩大资产库,并引入更复杂的布局算法来解决这些问题。此外,该系统为进一步探索文本驱动的3D交互式场景生成开辟了新的途径。

本文选自gongzhonghao【CVPR顶会精选

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/93909.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/93909.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

迅为RK3568开发板搭建Ubuntu环境

本小节介绍开发所需 Ubuntu 环境的搭建方法。系统要求:Ubuntu 系统要求:Ubuntu18.04~21.10 版本。推荐使用 20.04 版本,内存 16GB 及以上,硬盘 100GB 及以上。Ubuntu 系统的用户名不能包含中文字符。建议 Ubuntu 和 Windows 系统上安装的 Dev…

【数据结构】用堆解决TOPK问题

设计一个算法,找出数组中最小的k个数。以任意顺序返回这k个数均可。示例:输入: arr [1,3,5,7,2,4,6,8], k 4 输出: [1,2,3,4]比较替换堆顶的数时,不需要让堆顶与数组的每一个数再进行比较,比较数组减去k个…

【深度长文】Anthropic发布Prompt Engineering全新指南

目录 1.什么时候适合用提示工程? 2.如何进行提示工程 2.1 使用提示模板 2.1.1 使用提示模板和变量 2.1.2 何时使用提示模板和变量 2.1.3 提示模板示例 2.2 保持清晰和直接 2.2.1 如何保持清晰、具有上下文和具体 2.2.2 示例 ​2.3 使用示例(多示例提示…

【基础-判断】HarmonyOS提供了基础的应用加固安全能力,包括混淆、加密和代码签名能力

正确 解释如下: 应用加固: 这是指对应用程序进行保护,使其更难被逆向工程、篡改或盗版。HarmonyOS 作为现代操作系统,确实提供了这样的基础安全能力。 混淆: HarmonyOS 的 SDK 提供了代码混淆工具(通常基于 ProGuard 或类似技术)。开发者在构建应用时启用混淆,可以将类…

HTML 框架:构建网页布局的基石

HTML 框架:构建网页布局的基石 引言 HTML 框架是网页设计中不可或缺的一部分,它为网页内容的布局提供了强大的支持。本文将深入探讨 HTML 框架的概念、种类、应用以及如何有效地使用它们来构建网页布局。 什么是 HTML 框架? HTML 框架是一种网…

[Linux]学习笔记系列 -- [mm][memblock]

文章目录mm/memblock.c: Linux内核的“拓荒时代”内存管理器一、 核心问题:为什么需要 memblock?二、 核心原理与设计三、 在内核启动流程中的角色四、 关键 API五、 总结include/linux/memblock.hmm/memblock.cmemblock_reserve 预留内存块for_each_mem…

Java 面试八股文汇总(1000 道附答案解析)

在过 2 个月即将进入金九银十了,然而面对今年的大环境而言,跳槽成功的难度比往年高了很多,很明显的感受就是:对于今年的 java 开发朋友跳槽面试,无论一面还是二面,都开始考验一个 Java 程序员的技术功底和基…

给纯小白的Python操作 PDF 笔记

一、文件基础打开与关闭 推荐用 with open(path, mode, encodingutf-8) as f:,自动完成 close(),避免泄露文件句柄。常见模式:r 读,w 写覆盖,a 追加,rb/wb 二进制。Windows 默认编码为 GBK,Linu…

vue使用vue-cropper实现图片裁剪之单图裁剪

vue制作的pc系统中(如若依系统),需要实现按照固定尺寸进行裁剪后再进行图片上传,以下代码讲述的是实现单张图片裁剪上传。1.第一步需要安装vue-croppernpm install vue-cropper2.第二步在需要的页面进入代码引入import {VueCropper} from "vue-crop…

后台管理系统-5-vue3之子路由渲染首页及卡片容器和表格容器实现

文章目录 1 子路由的实现 1.1 router/index.js 1.2 views/Home.vue(首页) 1.3 Main.vue 2 左上方的卡片 2.1 分栏间隔(Layout布局) 2.2 卡片容器(el-card) 2.3 整体代码Home.vue 3 左下方的table(静态实现) 3.1 准备数据 3.2 渲染表格(el-table) 3.3 整体代码Home.vue 4 附录 子…

在CentOS系统中查询已删除但仍占用磁盘空间的文件

在CentOS系统中查询已删除但仍占用磁盘空间的文件在CentOS系统中查询已删除但仍占用磁盘空间的文件1. 检查磁盘整体使用情况2. 查找被删除但仍被进程占用的文件3. 释放磁盘空间4. 替代方案(不终止进程)注意事项补充工具在CentOS系统中查询已删除但仍占用…

正点原子【第四期】Linux之驱动开发学习笔记-1.1 Linux驱动开发与裸机开发的区别

前言: 本文是根据哔哩哔哩网站上“正点原子【第四期】手把手教你学Linux系列课程之 Linux驱动开发篇”视频的学习笔记,该课程配套开发板为正点原子alpha/mini Linux开发板。在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内…

Android SystemServer 中 Service 的创建和启动方式

今天导师给我将讲了一些如何新建一个系统服务,以及如何去初始化。 Android SystemServer 中 Service 的创建和启动方式 在 Android 系统中,SystemServer 是系统服务的核心进程,负责启动和管理各种系统服务。以下是 SystemServer 中服务创建和…

SQL SERVER中位数

有11家门店数据,要求每天所有门店的各个指标的中位数1.第一种做法,使用PERCENTILE_CONT() 函数 SQL SERVER 2012 版本及以上PERCENTILE_CONT 函数简介PERCENTILE_CONT 是 SQL 中的窗口函数,用于计算连续百分位数&#…

【java中springboot引入geotool】

学习目标: 在Spring Boot项目中引入GeoTools库,可以按照以下步骤进行:理解GeoTools库的基本信息和用途 GeoTools是一个开源的Java库,用于处理地理信息系统(GIS)数据。它提供了对空间数据的读取、写入、查询…

多项目开发环境:如何使用update-alternatives管理多版本Java JDK?(Windows、Mac、Ubuntu)

如何使用update-alternatives管理多版本Java JDK?(Windows、Mac、Ubuntu) 📖 摘要 在实际开发中,往往会遇到既要维护老项目又要跟进新特性的场景,这就需要在一台机器上同时安装并切换多个Java JDK版本。本…

力扣57:插入区间

力扣57:插入区间题目思路代码题目 给你一个 无重叠的 ,按照区间起始端点排序的区间列表 intervals,其中 intervals[i] [starti, endi] 表示第 i 个区间的开始和结束,并且 intervals 按照 starti 升序排列。同样给定一个区间 newInterval […

KVM虚拟化技术解析:从企业应用到个人创新的开源力量

1 .KVM:开源虚拟化的核心引擎 KVM(Kernel-based Virtual Machine)作为Linux内核原生集成的开源虚拟化模块,彻底改变了现代数据中心的虚拟化格局。它通过将Linux内核转变为Type-1型虚拟机监控器(Hypervisor)…

28.Linux :通过源代码编译安装lamp

Linux :通过源代码编译安装lamp 区别特性源代码编译安装yum 安装安装方式从源代码编译构建预编译的二进制包自定义程度高度可定制有限定制性能优化可针对特定硬件优化通用优化依赖管理手动解决依赖关系自动解决依赖安装复杂度复杂,需技术经验简单&#x…

应用控制技术

一、 应用特征识别技术1.传统行为检测技术1.1 五元组检测原理1.2 配置思路1.3 效果展示需求背景21.4 传统行为检测的缺陷无法识别应用层内容:若应用更换端口(如QQ改用随机端口)或伪装协议(如HTTPS加密),传统…