开发者说 | EmbodiedGen:为具身智能打造可交互3D世界生成引擎

概述

具身智能的发展离不开高质量、多样化的可交互3D仿真环境。为突破传统构建方式的瓶颈,我们提出了EmbodiedGen,一个基于生成式AI技术的自动化3D世界生成引擎,助力低成本、高效率地创建真实且可交互的3D场景。用户仅需输入任务定义或场景图像,即可自动化生成多样化、可交互的3D世界。EmbodiedGen代码已开源并上线Hugging Face服务,欢迎大家关注使用。

GitHub代码**:**

https://github.com/HorizonRobotics/EmbodiedGen

• 技术报告:

https://arxiv.org/abs/2506.10600

• 项目主页:

https://horizonrobotics.github.io/robot_lab/embodied_gen

图片

总体框架

为了解决传统机器人仿真环境因高度依赖人工建模,所导致的高成本、低效率瓶颈,我们提出EmbodiedGen,面向具身智能的可交互3D世界的生成式平台。系统通过多模态Agent (Scene Designer) 智能解析用户输入的场景图像或任务文本描述,自动化生成符合交互规则与任务流程的结构化布局 (Scene Graph) ,实现高度定制化的场景设计。基于布局蓝图智能调用资产生成模块,高效生成物理合理的多样性3D资产:图像生成3D(从图像生成物理真实的3D资产),文本生成3D(从自然语言生成3D资产),活动关节物体生成(从双状态图像生成可活动的3D资产),纹理生成编辑(多风格的3D纹理生成与编辑),场景生成(多样化3D环境背景生成)。最终输出高保真的可交互3D世界,为机器人感知-决策-执行闭环提供物理精确的仿真环境。

图片

单图生成物理真实3D资产赋能高保真数字孪生

图片

核心能力:

  • 生成的3D资产具有业界领先的几何质量,真实物理属性、水密性与简化网格,可无缝导入多种仿真器中使用;
  • 自动标注语义与质检标签,包括资产描述、纹理美学打分、前景提取质量检验与几何质量校验等;
  • 消除纹理高光,结合法线信息多视角融合,输出2K分辨率纹理,细节更精致。

自然语言生成3D资产资产库规模化低成本构建

图片

核心能力:

  • 支持通过自然语言描述(中&英)生成具备语义一致性、物理真实性的3D资产;
  • 通过Agent系统智能拆解复杂生成需求(如“生成100种风格的杯子”)为不同的风格与形状描述,并通过质检标签自动筛选出视觉效果美观并且物理几何合理3D物体资产。

活动关节物体生成双状态图像构建可活动3D资产

图片

核心能力:

  • 支持橱柜、抽屉等常见活动关节物体的生成,捕捉几何结构的同时建模部件之间的连接关系与运动行为;
  • 采用扩散模型实现高质量的可控生成,通过双状态消除运动歧义,准确建模物体的关节关系;
  • 输出的3D物体资产具备物理合理性,适用于交互式仿真环境中的操作与交互,详见我们发表的另一篇工作 DIPO。

纹理生成与编辑3D资产视觉风格化增广

图片

核心能力:

  • 支持以3D网格和文本描述为输入,生成语义一致、几何视角一致的高质量2K分辨率纹理;
  • 采用可插拔的可学习模块,将社区文生图基础模型能力迁移到3D纹理生成,最小化再训练成本;
  • 输出资产纹理清晰、风格丰富,具备真实感与艺术表现力,支持3D文字纹理生成。

图片

多样性场景生成几何一致的背景3D资产

图片

核心能力:

  • 自然语言或图像输入,生成语义一致、结构合理、尺度真实的3D场景资产;
  • 良好的可扩展性,主要包括全景图像生成、3D场景生成&迭代补全与尺度坐标对齐三个模块;
  • 输出场景包含3D网格与3DGS两种表达,可作为机器人仿真中的背景资产。

任务驱动的布局生成构建可交互3D世界蓝图

图片

图片

图片

核心能力:

  • 支持输入自然语言任务描述(如"Franka robotic arm picks shoes")或图片,一键生成语义合理、结构完整的3D可交互世界;
  • 采用多叉树结构表达3D世界布局蓝图,节点为3D资产描述,边表示父子从属关系与空间布局关系;
  • 利用LLM实现低代码布局搭建,结合物理引擎求解稳态位姿,确保物理可行与交互合理。

具身智能应用

EmbodiedGen以生成式AI重构3D世界构建范式,低成本生成几何精确、渲染真实的仿真资产(网格+3DGS混合表示),可快速导入仿真引擎,支撑机器人感知-决策-执行全流程闭环,赋能仿真数据生成与算法闭环评测等核心应用,包括以下具体示例:

图片

通过EmbodiedGen构建物理精确数字孪生,在MuJoCo仿真环境中进行动态交互仿真。

图片

通过EmbodiedGen生成待评测3D资产,并在Isaac中对操作模型性能进行仿真评测。

图片

通过EmbodiedGen编辑物体纹理,生成多样性场景,对RoboTwin搭建的操作任务进行数据资产增广。

图片

通过EmbodiedGen生成3D物体资产,用于OpenAI Gym中的导航及避障任务仿真。

总结与展望

EmbodiedGen通过整合图像、文本等多模态输入,打通从单体资产生成到物理真实的可交互式3D世界构建的全流程。模块化设计与生成式AI的深度融合,提高具身智能数据获取效率与仿真环境多样性。未来,EmbodiedGen将作为开放平台持续演进,助力通用智能体的开发与评测,推动具身智能从研究走向应用落地。

致谢

EmbodiedGen涉及以下出色的开源模型和项目:

[1] Jianfeng Xiang, et al. TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. arXiv preprint arXiv:2412.01506.

[2] Tencent Hunyuan3D Team. Hunyuan3D‑Delight‑v2.0 Model Card, 2025.

[3] Wu Ruiqi, et al. DIPO: Dual-state images controlled articulated object generation powered by diverse data. arXiv preprint arXiv:2505.20460, 2025.

[4] Kirillov Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[5] Daniel Gatis, et al. Rembg: A tool to remove images background. 2022.

[6] Xintao Wang, et al. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. ICCVW, 2021.

[7] Kolors Team. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.

[8] Guo Pu, et al. Pano2Room: Novel View Synthesis from a Single Indoor Panorama. SIGGRAPH Asia 2024.

[9] Feng Mingyuan, et al. Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models. arXiv preprint arXiv:2311.13141, 2023.

[10] Stability AI. Stable Diffusion 3.5 Medium. 2024.

[11] Eftekhar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.

[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.

ar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.

[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.

[13] OpenAI. GPT-4o https://openai.com/index/hello-gpt-4o 2024.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/919172.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/919172.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GitHub Copilot:AI编程助手的架构演进与真实世界影响

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术! 1. 技术背景与核心架构 GitHub Copilot 是由 GitHub 与 OpenAI 联合开…

PDF OCR + 大模型:让文档理解不止停留在识字

在企业数字化的实际场景中,PDF OCR 已经很普遍了:从扫描件提取文本、表格到生成可搜索 PDF。但这类技术往往停留在"把图片变成文字",对文档背后的语义、逻辑、业务价值理解不足。 而当 OCR 遇上大语言模型(LLM&#xff…

半敏捷卫星观测调度系统的设计与实现

半敏捷卫星观测调度系统的设计与实现 摘要 本文详细阐述了一个基于Python的半敏捷卫星观测调度系统的设计与实现过程。系统针对半敏捷卫星特有的机动能力限制,综合考虑了地面目标观测需求、卫星资源约束、能源管理等多重因素,提出了一种混合启发式算法解…

软件测试中,常用的抓包工具有哪些?抓包的原理是什么?

回答重点在软件测试中,常用的抓包工具主要有:1)Fiddler2)Wireshark3)Charles4)Postman(它的拦截器功能也可以用于抓包)5)tcpdump抓包的原理大致是通过安装在本地的抓包工…

Cesium学习(二)-地形可视化处理

Cesium地形可视化是其核心功能之一,允许开发者在3D地球中展示真实的地形数据。以下是关于Cesium地形可视化的详细处理方法: 文章目录1. 启用地形可视化基本地形加载自定义地形提供者2. 地形相关操作地形高度采样地形夸张效果3. 地形可视化设置地形照明效…

《告别 if-else 迷宫:Python 策略模式 (Strategy Pattern) 的优雅之道》

《告别 if-else 迷宫:Python 策略模式 (Strategy Pattern) 的优雅之道》 大家好,我是你的朋友,一位与 Python 代码相伴多年的开发者。在我们的编程生涯中,几乎都曾与一种“代码怪兽”搏斗过,它就是那冗长、复杂、牵一发而动全身的 if-elif-else 结构。 每当一个新的需求…

Redis--day7--黑马点评--优惠券秒杀

(以下内容全部来自上述课程)优惠券秒杀 1. 全局唯一ID 每个店铺都可以发布优惠券:当用户抢购时,就会生成订单并保存到tb voucher order这张表中,而订单表如果使用数据库自增ID就存在一些问题: id的规律性太明显受单表数据量的限制…

Vue 与 React 深度对比:设计哲学、技术差异与应用场景

一、核心设计理念对比 特性 Vue React 设计目标 渐进式框架,降低学习曲线 构建大型应用,保持灵活性 设计哲学 “约定优于配置” “配置优于约定” 核心思想 响应式数据绑定 函数式编程 + 虚拟DOM 模板语言 HTML-based 模板 JSX(JavaScript XML) 状态管理 内置响应式系统 依…

软件开发 - foreground 与 background

foreground 与 background 1、foreground词性含义n.前景;最突出的位置.v使突出;强调# 例词in the 【foreground】(在最显眼的位置)【foreground】 task(前台任务)【foreground】 color(前景色&a…

深度学习——03 神经网络(2)-损失函数

2 损失函数 2.1 概述作用:衡量模型预测结果(y^\hat{y}y^​)和真实标签(yyy)的差异,差异越大,说明模型参数“质量越差”(需要调整);本质:深度学习训…

【大模型微调系列-04】 神经网络基础与小项目实战

【大模型微调系列-04】 神经网络基础与小项目实战💡 本章目标:通过构建一个能识别手写数字的AI模型,让你真正理解神经网络是如何"学习"的。2-3小时后,你将拥有第一个自己训练的AI模型!4.1 理论讲解&#xff…

JavaWeb前端(HTML,CSS具体案例)

前言 一直在学习B站黑马程序员苍穹外卖。现在已经学的差不多了,但是我学习一直是针对后端开发的,前端也没太注重去学(他大部分都给课程资料嘻嘻🤪),但我还是比较感兴趣,准备先把之前学JavaWeb&…

核心数据结构:DataFrame

3.3.1 创建与访问什么是 DataFrame?DataFrame 是 Pandas 中的核心数据结构之一,多行多列表格数据,类似于 Excel 表格 或 SQL 查询结果。它是一个 二维表格结构,具有行索引(index)和列标签(colu…

深入探索Go语言标准库 net 包中的 IP 处理

深入探索Go语言标准库 net 包中的 IP 处理 文章目录深入探索Go语言标准库 net 包中的 IP 处理引言核心知识type IP常用函数常用方法代码示例常见问题1. DNS 查询失败怎么办?2. 如何区分 IPv4 和 IPv6 地址?使用场景1. 服务器端编程2. 网络监控和调试3. 防…

2.4 双向链表

目录 引入 结构定义 结构操作 初始化 插入 删除 打印 查找 随机位置插入 随机位置删除 销毁 总结 数据结构专栏https://blog.csdn.net/xyl6716/category_13002640.html 精益求精 追求卓越 【代码仓库】:Code Is Here 【合作】 :apollomona…

开发指南132-DOM的宽度、高度属性

宽度、高度类似。这里以高度为例来说明DOM中有关高度的概念:1、height取法:element.style.height说明:元素内容区域的高度,不含padding、border、margin该属性可写2、clientHeight取法:element..clientHeight&#xff…

魔改chromium源码——解除 iframe 的同源策略

在进行以下操作之前,请确保已完成之前文章中提到的 源码拉取及编译 部分。 如果已顺利完成相关配置,即可继续执行后续操作。 同源策略限制了不同源(协议、域名、端口)的网页脚本访问彼此的资源。iframe 的跨域限制由 Blink 渲染引擎和 Chromium 的安全层共同实现。 咱们直…

在鸿蒙中实现深色/浅色模式切换:从原理到可运行 Demo

摘要 现在几乎所有主流应用都支持“深色模式”和“浅色模式”切换,这已经成了用户习惯。鸿蒙(HarmonyOS)同样提供了两种模式(dark / light),并且支持应用根据系统主题切换,或者应用内手动切换。…

Redux搭档Next.js的简明使用教程

Redux 是一个用于 JavaScript 应用的状态管理库,主要解决组件间共享状态和复杂状态逻辑的问题。当应用规模较大、组件层级较深或多个组件需要共享/修改同一状态时,Redux 可以提供可预测、可追踪的状态管理方式,避免状态在组件间混乱传递。Red…

SCAI采用公平发射机制成功登陆LetsBonk,60%代币供应量已锁仓

去中心化科学(DeSci)平台SCAI宣布,其代币已于今日以Fair Launch形式在LetsBonk.fun平台成功发射。为保障资金安全与透明,开发团队已将代币总量的60%进行锁仓,进一步提升社区信任与项目合规性。SCAI是一个专注于高质量科…