开发者说 | EmbodiedGen：为具身智能打造可交互3D世界生成引擎

概述

具身智能的发展离不开高质量、多样化的可交互3D仿真环境。为突破传统构建方式的瓶颈，我们提出了EmbodiedGen，一个基于生成式AI技术的自动化3D世界生成引擎，助力低成本、高效率地创建真实且可交互的3D场景。用户仅需输入任务定义或场景图像，即可自动化生成多样化、可交互的3D世界。EmbodiedGen代码已开源并上线Hugging Face服务，欢迎大家关注使用。

• GitHub代码**：**

https://github.com/HorizonRobotics/EmbodiedGen

• 技术报告：

https://arxiv.org/abs/2506.10600

• 项目主页：

https://horizonrobotics.github.io/robot_lab/embodied_gen

总体框架

为了解决传统机器人仿真环境因高度依赖人工建模，所导致的高成本、低效率瓶颈，我们提出EmbodiedGen，面向具身智能的可交互3D世界的生成式平台。系统通过多模态Agent (Scene Designer) 智能解析用户输入的场景图像或任务文本描述，自动化生成符合交互规则与任务流程的结构化布局 (Scene Graph) ，实现高度定制化的场景设计。基于布局蓝图智能调用资产生成模块，高效生成物理合理的多样性3D资产：图像生成3D（从图像生成物理真实的3D资产），文本生成3D（从自然语言生成3D资产），活动关节物体生成（从双状态图像生成可活动的3D资产），纹理生成编辑（多风格的3D纹理生成与编辑），场景生成（多样化3D环境背景生成）。最终输出高保真的可交互3D世界，为机器人感知-决策-执行闭环提供物理精确的仿真环境。

单图生成物理真实3D资产赋能高保真数字孪生

核心能力：

生成的3D资产具有业界领先的几何质量，真实物理属性、水密性与简化网格，可无缝导入多种仿真器中使用；
自动标注语义与质检标签，包括资产描述、纹理美学打分、前景提取质量检验与几何质量校验等；
消除纹理高光，结合法线信息多视角融合，输出2K分辨率纹理，细节更精致。

自然语言生成3D资产资产库规模化低成本构建

核心能力：

支持通过自然语言描述（中&英）生成具备语义一致性、物理真实性的3D资产；
通过Agent系统智能拆解复杂生成需求（如“生成100种风格的杯子”）为不同的风格与形状描述，并通过质检标签自动筛选出视觉效果美观并且物理几何合理3D物体资产。

活动关节物体生成双状态图像构建可活动3D资产

核心能力：

支持橱柜、抽屉等常见活动关节物体的生成，捕捉几何结构的同时建模部件之间的连接关系与运动行为；
采用扩散模型实现高质量的可控生成，通过双状态消除运动歧义，准确建模物体的关节关系；
输出的3D物体资产具备物理合理性，适用于交互式仿真环境中的操作与交互，详见我们发表的另一篇工作 DIPO。

纹理生成与编辑3D资产视觉风格化增广

核心能力：

支持以3D网格和文本描述为输入，生成语义一致、几何视角一致的高质量2K分辨率纹理；
采用可插拔的可学习模块，将社区文生图基础模型能力迁移到3D纹理生成，最小化再训练成本；
输出资产纹理清晰、风格丰富，具备真实感与艺术表现力，支持3D文字纹理生成。

多样性场景生成几何一致的背景3D资产

核心能力：

自然语言或图像输入，生成语义一致、结构合理、尺度真实的3D场景资产；
良好的可扩展性，主要包括全景图像生成、3D场景生成&迭代补全与尺度坐标对齐三个模块；
输出场景包含3D网格与3DGS两种表达，可作为机器人仿真中的背景资产。

任务驱动的布局生成构建可交互3D世界蓝图

核心能力：

支持输入自然语言任务描述（如"Franka robotic arm picks shoes"）或图片，一键生成语义合理、结构完整的3D可交互世界；
采用多叉树结构表达3D世界布局蓝图，节点为3D资产描述，边表示父子从属关系与空间布局关系；
利用LLM实现低代码布局搭建，结合物理引擎求解稳态位姿，确保物理可行与交互合理。

具身智能应用

EmbodiedGen以生成式AI重构3D世界构建范式，低成本生成几何精确、渲染真实的仿真资产（网格+3DGS混合表示），可快速导入仿真引擎，支撑机器人感知-决策-执行全流程闭环，赋能仿真数据生成与算法闭环评测等核心应用，包括以下具体示例：

通过EmbodiedGen构建物理精确数字孪生，在MuJoCo仿真环境中进行动态交互仿真。

通过EmbodiedGen生成待评测3D资产，并在Isaac中对操作模型性能进行仿真评测。

通过EmbodiedGen编辑物体纹理，生成多样性场景，对RoboTwin搭建的操作任务进行数据资产增广。

通过EmbodiedGen生成3D物体资产，用于OpenAI Gym中的导航及避障任务仿真。

总结与展望

EmbodiedGen通过整合图像、文本等多模态输入，打通从单体资产生成到物理真实的可交互式3D世界构建的全流程。模块化设计与生成式AI的深度融合，提高具身智能数据获取效率与仿真环境多样性。未来，EmbodiedGen将作为开放平台持续演进，助力通用智能体的开发与评测，推动具身智能从研究走向应用落地。

致谢

EmbodiedGen涉及以下出色的开源模型和项目：

[1] Jianfeng Xiang, et al. TRELLIS: Structured 3D Latents for Scalable and Versatile 3D Generation. arXiv preprint arXiv:2412.01506.

[2] Tencent Hunyuan3D Team. Hunyuan3D‑Delight‑v2.0 Model Card, 2025.

[3] Wu Ruiqi, et al. DIPO: Dual-state images controlled articulated object generation powered by diverse data. arXiv preprint arXiv:2505.20460, 2025.

[4] Kirillov Alexander, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[5] Daniel Gatis, et al. Rembg: A tool to remove images background. 2022.

[6] Xintao Wang, et al. Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data. ICCVW, 2021.

[7] Kolors Team. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis.

[8] Guo Pu, et al. Pano2Room: Novel View Synthesis from a Single Indoor Panorama. SIGGRAPH Asia 2024.

[9] Feng Mingyuan, et al. Diffusion360: Seamless 360 Degree Panoramic Image Generation based on Diffusion Models. arXiv preprint arXiv:2311.13141, 2023.

[10] Stability AI. Stable Diffusion 3.5 Medium. 2024.

[11] Eftekhar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.

[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.

ar Ainaz, et. Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans. ICCV 2021.

[12] Qwen2.5-VL team. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923. 2025.

[13] OpenAI. GPT-4o https://openai.com/index/hello-gpt-4o 2024.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/news/919172.shtml
繁体地址，请注明出处：http://hk.pswp.cn/news/919172.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！