【图片转 3D 模型】北大·字节跳动·CMU携手——单图15 秒生成结构化3D模型!


​引言:单图生成结构化 3 D 模型的技术突破​

image.png

PartCrafter 由北京大学、字节跳动与卡耐基梅隆大学联合研发,是全球首个​​端到端生成结构化 3 D 网格​​的模型。它仅需单张 RGB 图像,即可在 34 秒内生成带语义分解的 3 D 部件(如机械关节、家具组件),跳过传统“分割-重建”流程,直接输出可编辑的零件级模型。其核心突破在于将物理世界的组合逻辑融入 AI 生成过程,甚至能推断图像中被遮挡的隐藏结构。


​一、传统 3 D 建模的瓶颈与 PartCrafter 的革新​

​传统方法的两大局限​​:

  1. ​整体生成法​​(如 TripoSR):输出单一网格,无法分离部件,二次编辑困难。
  2. ​两阶段法​​(如 HoloPart):需先分割图像再独立重建部件,导致部件连接错误或悬空,且耗时长达 18 分钟。

​PartCrafter 的解决方案​​:

  • ​统一生成架构​​:无需预分割输入,直接端到端输出多部件 3 D 模型。
  • ​物理逻辑内嵌​​:模型通过部件关系先验,自动补全被遮挡结构(如从椅面图像推断完整椅腿)。
    image.png

​二、核心技术解析:组合生成与分层推理​

​1. 组合式潜在空间:像乐高一样编码部件​

每个 3 D 部件由​​独立潜在令牌(Latent Tokens)​​表示,并绑定可学习的部件 ID 嵌入。这种设计支持:

  • ​粒度控制​​:按需输出粗粒度(椅子=椅背+座垫)或细粒度分解(椅腿→连接件+支撑杆)。
  • ​独立编辑​​:生成后可直接调整单个部件的位置、旋转或缩放。
    image.png
​2. 分层注意力机制:双轨信息流协同​

模型通过​​21 层交替的局部-全局注意力​​实现协同优化:

  • ​局部注意力​​(奇数层):聚焦部件内部细节(如齿轮齿距、曲面弧度)。
  • ​全局注意力​​(偶数层):协调部件关系(如轴承与轴孔对齐),避免碰撞或悬空。
​3. 预训练模型迁移:继承与超越​

复用预训练的 3 D 网格扩散 Transformer(DiT)的权重与解码器。实验证明,其生成保真度​​超越底层 DiT 模型​​(Chamfer 距离降低 18%),验证结构化理解提升整体质量。


​三、性能实测:效率与精度双突破​

​生成质量(Objaverse 数据集)​​:
​指标​​PartCrafter​​HoloPart​​提升​
Chamfer 距离0.17260.2103↓18%
F-Score@0.10.74720.6815↑9.6%
网格错误率0.0330.100↓67%
​生成效率​​:
  • ​4 部件模型生成仅需 34 秒​​,比 HoloPart 快 30 倍;
  • 支持 1080 P 图像输入,单张 NVIDIA RTX 3090 GPU 可部署。

​四、真实应用场景​

  1. ​游戏开发​​:输入角色原画,生成带关节的恐龙尾部模型,直接导入 Unity 引擎。
  2. ​工业设计​​:生成齿轮组+轴承的装配体,导出. STL 格式用于 3 D 打印。
  3. ​教育可视化​​:分解内燃机模型,动态演示活塞运动过程。
  4. ​建筑场景​​:输入室内草图,生成带门窗结构的可编辑房屋模型。
    image.png
    image.png
    image.png

​五、部署指南:本地运行步骤​

​环境要求​​:
  • 系统:Ubuntu 20.04+
  • GPU:NVIDIA RTX 3090(24 GB 显存)
  • 依赖:Python 3.8+, PyTorch 2.0+
​部署流程​​:
# 1. 克隆代码库  
git clone https://github.com/wgsxm/PartCrafter  # 2. 安装依赖  
pip install -r requirements.txt  # 3. 下载预训练权重(暂用占位符,7月15日前发布完整版)  
wget https://partcrafter.models/pretrained_vae.pth  # 4. 生成示例(输入图像+指定部件数)  
python generate.py --input_image chair.jpg --part_count 4

​输出格式​​:支持. obj/. glb,兼容 Blender、Maya 等工具。
​注意事项​​:当前预训练权重为占位版本,完整版预计 7 月 15 日发布于 Hugging Face。


​结语:结构化生成——虚拟与现实的几何桥梁​

PartCrafter 的突破不仅在于速度,更在于​​将物理世界的组装规则编码进 AI​​。它证明:理解“椅子由椅腿和椅背组成”这一常识,能让 3 D 生成更合理、更易用。随着 7 月完整开源,这项技术或将重塑游戏、工业、教育领域的 3 D 内容生产流程。

​延伸价值​​:若未来融入物理引擎约束(如动力学模拟),生成模型可直接用于机器人运动规划——结构化生成,正成为连接数字与物理世界的核心技术。


往期回顾:
【7 天 Python 速成指南】极客必备:从零到项目实战的高效路径
WWDC25 技术彩蛋三行代码调用30亿参数大模型:苹果为何赌定设备端AI?
当 Java 遇上大模型,LangChain4j 如何成为开发者的「AI 胶水」?​​
突破性轻量OCR:3B参数的MonkeyOCR如何吊打Gemini与72B巨头?
【本地部署教程】Qwen2.5-VL 阿里最新开源最强的开源视觉大模型,支持视频!
一键解锁智能文档问答新体验!开源 RAG 引擎 RAGFlow 重磅来袭

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909488.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

零基础RT-thread第二节:按键控制

我这里依然使用的是野火开发板,F767芯片。 这一节写一下按键控制LED亮灭。 这是按键以及LED的原理图。 按键对应的引脚不按下时是低电平,按下后是高电平。 LED是在低电平点亮。 接下来是key.c: /** Copyright (c) 2006-2021, RT-Thread Development T…

《Gulp与SCSS:解构前端样式开发的底层逻辑与实战智慧》

探寻Gulp与SCSS协作的底层逻辑 Gulp,作为任务自动化的佼佼者,其核心价值在于将一系列复杂的任务,如文件的编译、合并、压缩等,以一种流畅且高效的方式串联起来,形成一个自动化的工作流。它基于流(stream&a…

OpenCV CUDA模块图像变形------对图像进行GPU加速的透视变换函数warpPerspective()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 该函数用于对图像进行 GPU 加速的透视变换(Perspective Transformation),是 cv::warpPerspective 的 CUDA 版…

吴恩达机器学习笔记(2)—单变量线性回归

目录 一、模型表示 二、代价函数 三、代价函数的直观理解(1) 四、代价函数的直观理解(2) 五、梯度下降 六、梯度下降的直观理解 七、线性回归的梯度下降 在本篇内容中,我们将介绍第一个机器学习算法——线性回归…

最新华为 HCIP-Datacom(H12-821)

最新 HCIP-Datacom(H12-821),完整题库请上方访问,更新完毕。 在OSPF网络中,NSSA区域与STUB区域都是为了减少LSA数量,两者最主要的区别在于,NSSA区域可以引入外部路由,并同时接收OSPF…

vba学习系列(11)--批退率通过率等数据分析

系列文章目录 文章目录 系列文章目录前言一、外观报表1.产能2.固定伤排查3.镜片不良TOP4.镜片公式计算5.镜片良率计算6.镜片批退率7.镜筒不良TOP8.镜筒公式计算9.镜筒良率计算10.镜筒批退率 二、反射率报表1.机台通过率2.镜片通过率圈数分析3.镜片通过率罩次分析4.镜筒通过率圈…

成功在 Conda Python 2.7 环境中安装 Clipper(eCLIP peak caller)

🔬 成功在 Conda Python 2.7 环境中安装 Clipper(eCLIP peak caller) 本文记录了如何在无 root 权限下使用 Conda 环境,解决依赖、构建扩展模块并成功安装运行 clipper 的详细流程。适用于再现 eCLIP 分析流程时遇到 clipper 安装…

通过 VS Code 连接 GitLab 并上传项目

通过 VS Code 连接 GitLab 并上传项目,请按照以下步骤操作: 1. 安装必要工具 确保已安装 Git 并配置用户名和邮箱: git config --global user.name "你的用户名" git config --global user.email "你的邮箱" 在 VS Cod…

开源夜莺支持MySQL数据源,更方便做业务指标监控了

夜莺监控项目最核心的定位,是做一个告警引擎,支持多种数据源的告警。这个版本的更新主要是增加了对 MySQL 数据源的支持,进一步增强了夜莺在业务指标监控方面的能力。 之前版本的夜莺主要聚焦在 Prometheus、VictoriaMetrics、ElasticSearch…

SpringCloud + MybatisPlus:多租户模式与实现

一、多租户的基本概念 多租户(Multi-Tenancy) 是指在一套软件系统中,多个租户(客户)共享相同的基础设施和应用程序,但数据和配置相互隔离的架构模式。其核心目标是 降低成本 和 保证数据安全。 核心特点: 资源共享:租户共享服务器、数据库、代码等资源。数据隔离:通…

Kafka入门:解锁核心组件,开启消息队列之旅

一、引言 Kafka以超高速吞吐、精准的路由策略和永不掉线的可靠性,让海量数据在分布式系统中畅行无阻。无论你是刚接触消息队列的技术小白,还是寻求性能突破的开发老手,掌握 Kafka 核心组件的运作原理,都是解锁高效数据处理的关键…

前端项目Excel数据导出同时出现中英文表头错乱情况解决方案。

文章目录 前言一、Excel导出出现中英文情况。二、解决方案数据处理 三、效果展示总结 前言 在前端项目中实现Excel导出功能时,数据导出excel是常见的业务需求。但excel导出完表头同时包含了中文和英文的bug,下面是我的经验分享,应该可以帮助…

《开窍》读书笔记8

51.学会赞美他人,能净化心灵,建立良好人际关系,让生活充满阳光。 52.欣赏他人的学习过程,能激发潜能,促进相互成长,让有点共存。 53.别因“自我”一叶障目,要关注他人,欣赏与别欣赏式…

基于 Spring Cloud Gateway + Sentinel 实现高并发限流保护机制

基于 Spring Cloud Gateway Sentinel 实现视频播放接口限流保护机制 作者:NovaTube 开发者 | 时间:2025-06 标签:Spring Cloud Gateway、Sentinel、微服务、限流、接口保护 一、背景介绍 在我们开发的在线视频分享平台 NovaTube…

CountDownLatch入门代码解析

文章目录 核心思想:火箭发射倒计时 🚀最简单易懂的代码示例代码解析运行流程分析 核心思想:火箭发射倒计时 🚀 想象一下发射火箭的场景,在按下最终的发射按钮之前,必须有好几个系统同时完成自检&#xff0…

用Python写一个可视化大屏

用Python打造可视化大屏:数据洞察新视界 在当今数据爆炸的时代,数据可视化成为了理解和传达复杂信息的关键工具。Python作为一门强大且灵活的编程语言,提供了丰富的库和工具,让我们能够创建出令人惊叹的可视化大屏。本文将带你逐步…

20250611让NanoPi NEO core开发板在Ubuntu core16.04系统下开机自启动的时候拉高GPIOG8

rootNanoPi-NEO-Core:/# touch open_4g_ec20.sh rootNanoPi-NEO-Core:/# vi open_4g_ec20.sh 【打开使能引脚200 IOG8】 echo 200 > /sys/class/gpio/export echo out > /sys/class/gpio/gpio200/direction echo 1 > /sys/class/gpio/gpio200/value 【切记&#xff1a…

解惑1、为何大容量电容滤低频,小容量电容滤高频

一、电容的种类: 链接: 二、疑惑 理论推算: 1)Zc1/wc,那么大容量和小容量的电容,不应该都是 越高频越阻抗低,越容易通过? 2)大容量,积蓄电荷速度慢&#…

如何有效监控JVM环境,保障应用性能

缓慢的Java应用程序、意外崩溃和晦涩的内存问题——这些都是JVM可能在默默承受压力的信号。JVM监控对于保障Java应用的正常运行时间和最佳性能至关重要,它提供了对Java虚拟机内存、线程和CPU资源使用情况的可见性,使管理员能够在影响终端用户之前识别性能…

python:PyQt5 开发一个邮件客户端,能编写邮件,发送邮件及附件

PyQt5 邮件客户端 下面是一个简洁高效的邮件客户端实现,支持编写邮件、添加附件和发送邮件功能: 编写 eMailClient_qt.py 如下 # -*- coding: utf-8 -*- """ 用 PyQt5 开发一个邮件客户端,能编写邮件,发送邮件及…