ICCV 2025 | 清华IEDA提出GUAVA,单图创建可驱动的上半身3D化身!实时、高效,还能捕捉细腻的面部表情和手势。

从单张图片重建高质量、可动画化且面部与手部动作丰富的 3D 人体化身,应用前景广阔。但传统重建方法依赖多视角或单目视频,还要针对不同个体训练,复杂又耗时,且受 SMPLX 限制,难以捕捉面部表情。为解决这些问题,清华大学和 IDEA(粤港澳大湾区数字经济研究院)研究团队先引入富有表现力的人体模型(EHM)增强面部表现,开发精确跟踪方法,进而提出首个快速重建可动画化上半身 3D 高斯化身的框架 GUAVA。它借助逆纹理映射等技术推断模型,经优化后,在渲染质量和速度上表现优异,相关代码已开源。

介绍

创建逼真且富有表现力的上半身人体化身,例如包含细致的面部表情和丰富的手势,在电影、游戏和虚拟会议等领域具有重要价值 。同时,易于创建和支持实时渲染也是关键要求 。然而,仅凭单张图像实现这些目标仍然是一个的重大挑战 。

3D Gaussian splatting (3DGS) 的兴起催生了许多3D化身重建方法,它们利用 3DGS 实现实时、高质量的化身重建 。然而,这些方法仍然存在一些局限性 :

  • 逐ID练:每个个体都需要单独训练 。

  • 训练复杂性:该过程耗时,需要标定的多视图或单目视频 。

  • 表现力有限:头部重建方法缺乏身体动作表示,而全身方法则忽略了细致的面部表情 。

扩散模型在视频生成方面取得了显著成果 。一些工作通过添加额外条件,如关键点或 SMPLX渲染图,来引导扩散模型的生成过程,扩展了模型在生成可控人体动画视频上的应用。尽管这些方法实现了良好的视觉效果,但它们仍然面临一些局限性 :

  • ID一致性:难以保持一致的 ID,尤其是在姿势发生大变化时 。

  • 效率:高计算成本和多步去噪导致推理速度慢,阻碍了实时应用 。

  • 视点控制:2D 方法无法轻松调整相机姿势,从而限制了视点控制 。

我们提出了 GUAVA,第一个从单张图像创建可驱动上半身 3D高斯化身的框架。与需要多视图视频或单人训练的3D方法不同,GUAVA 可以在秒级时间内完成推理重建,并支持实时动画和渲染 。与基于扩散模型的2D方法相比,GUAVA使用 3D高斯来确保更好的ID一致性和实时渲染 。并引入一种富有表现力的人体模型EHM,解决了现有模型在捕捉细致面部表情方面的局限性 。还利用逆纹理映射技术以准确地预测高斯纹理,并结合一个神经渲染器来提高渲染质量 。通过充分的实验也展示了其在渲染质量和效率方面优于现有2D和3D方法 。

相关链接

  • 论文地址: https://arxiv.org/pdf/2505.03351

  • 项目主页:https://eastbeanzhang.github.io/GUAVA/

  • 开源代码:https://github.com/Pixel-Talk/GUAVA

  • 视频Demo: GUAVA: Generalizable Upper Body 3D Gaussian Avatar_哔哩哔哩_bilibili

方法

  • EHM 模型与精确跟踪:为了解决SMPLX 模型在捕捉面部表情上的不足,GUAVA 引入了 EHM(Expressive Human Model)。EHM 结合了 SMPLX 和 FLAME 模型,能够实现更准确的面部表情表示 。同时我们设计了对应的通过两阶段追踪方法,实现从单张图像到姿态的准确估计。首先利用预训练模型进行粗略估计,然后使用 2D 关键点损失进行精细优化,从而为重建提供精确的姿势和表情参数 。

  • 快速重建与双分支模型: GUAVA基于追踪后的图像通过单次前向推理方式完成化身的重建。它包含两个分支:一个分支根据 EHM 顶点和投影特征预测粗略的“模板高斯”,另一个分支则通过“逆纹理映射”技术,将屏幕特征映射到 UV 空间,生成捕捉精细细节的“UV 高斯”。这两种高斯组合成完整的 Ubody 高斯,从而在保持几何结构的同时,捕捉丰富的纹理细节。

  • 实时动画与渲染:重建完成后,Ubody 高斯可以根据新的姿势参数进行变形和动画 。最后,通过神经细化器对渲染的图像进行优化,以增强细节和渲染质量 。

实验

实验设置

我们从 YouTube、OSX和 HowToSign收集视频数据集,主要关注人体上半身视频。其中训练集包含超过 62 万帧,测试集包含 58 个 ID 。为确保评估的全面性,实验采用了多种指标:自重演(self-reenactment)场景下,通过 PSNR、L1、SSIM 和 LPIPS 评估动画结果的图像质量 ;跨重演(cross-reenactment)场景下,使用 ArcFace 计算身份保留分数(IPS)以衡量 ID 一致性 。评估中与 MagicPose、Champ、MimicMotion 等2D方法以及 GART、GaussianAvatar 和 ExAvatar 3D方法进行比较。

定量结果

Self-reenactment:与 2D 方法相比,GUAVA 在所有指标(PSNR, L1​, SSIM, LPIPS)上均表现最佳,并在动画和渲染速度上达到约 50 FPS,而其他方法仅为每秒几帧 。与 3D 方法相比,GUAVA 的重建时间仅为 0.1 秒左右,而其他方法需要数分钟到数小时 。

Cross-reenactment:GUAVA 在身份保留分数(IPS)上显著优于其他所有 2D 方法,证明了其在不同姿势下保持 ID 一致性的能力 。

定性结果

尽管 2D 方法能生成高质量图像,但它们在保持 ID 一致性和准确恢复复杂手势及面部表情方面存在不足 。例如,Champ 的手部模糊 ,MagicPose 存在失真 ,而 MimicMotion 则无法保持 ID 一致性 。3D 方法在处理精细的手指和面部表情方面存在困难,也缺乏泛化能力,在未见区域或极端姿势下会产生伪影 。GUAVA 则能对未见区域生成合理的结果,在极端姿势下表现出更好的鲁棒性,并提供更准确、更细致的手部和面部表情 。

消融实验

为了验证方法中各个部分的有效性,在论文中进行了充分的消融实验。

论文总结

该论文介绍了 GUAVA,一个用于从单张图像重建可动画、具有细腻表现力上半身 3D化身的快速框架 。研究通过引入 EHM 模型及其精确跟踪方法,增强了面部表情、形状和姿势的捕捉能力 。论文通过UV 高斯和模板高斯的两个推理分支共同构建一个上半身高斯 。实验结果表明,GUAVA 在渲染质量和效率方面均优于现有方法 。它实现了约 0.1 秒的重建时间,并支持实时动画和渲染 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/95402.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/95402.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LC正弦波振荡电路

LC正弦波振荡电路LC正弦波振荡电路与RC桥式正弦波振荡电路的组成原则在本质上是一致的,只是选频网络采用LC振荡电路!引言 在RC正弦波振荡电路中,我们了解到——RC正弦波振荡电路的振荡频率一般在1MHz以下。为了得到1MHz以上的信号&#xff0c…

从网络层接入控制过渡到应用层身份认证的过程

这个过程非常经典,它涉及到了现代企业网络管理中几项核心的安全和控制技术。简单来说,这是一个从网络层接入控制过渡到应用层身份认证的过程。 其核心原理是:先保证设备是合法的(加域),再保证使用设备的人是合法的(网页认证)。 下面我为您详细分解其中的技术原理: 第…

【笔记】float类型的精度有限,无法精确表示123456.6789

一、前情提要 有个Java数据转换的小示例: public class Example2_2 {public static void main(String[] args) {float f 123456.6789f;System.out.printf("f%30.12f", f);} }输出的结果是:123456.679687500000这里就发现了个问题,…

西安电子科技大学金融专硕复试线为325分,推荐报考!

西安电子科技大学的金融硕士专业,不仅依托银行、保险和证券三大子行业,强调数理分析与信息技术的融合,还拥有优越的就业前景和公平的招生政策,吸引了众多学子报考。西安电子科技大学西安电子科技大学“金融硕士专业”硕士点设立于…

阿里云创建自己的博客,部署wordpress

目录 1. 基础环境介绍与规划 1.1 操作系统 1.2 数据库环境 1.3 Web 服务器 1.4 PHP 环境 1.5 WordPress 应用环境 1.6 网络与安全 1.7 基础环境总览表 2.安装流程 2.1 准备环境 2.2 安装 MySQL 5.7 2.3 安装 PHP 及扩展 2.4 安装 Nginx(或 Apache&…

CoreShop微信小程序商城框架开启多租户-添加一个WPF客户端以便进行上传产品信息和图片(6)

前几天已将基于开源CoreShop框架的微信小程序开启多租户功能,还开发了一个辅助客户端,已经完成了以下工作: 修改管理员表格,添加上所管理的店铺列表,两个产品信息表也全部加上所属店铺信息。 开发一个WPF客户端,能与服务器登录并能正常通信。尤其是添加了一个辅助类CoreH…

LabVIEW虚拟实验平台设计

​为突破实物实验教学的时空限制,解决实验设备不足、操作风险高等问题,设计基于专业软件的虚拟实验平台,以 “信号与系统” 无失真传输实验为实例,融合仿真与网络技术,适配高校工科实验教学,提升教学质量与…

PHP Composer 依赖管理完整指南 入门到精通

PHP Composer 依赖管理完整指南 入门到精通 Composer 改变了整个 PHP 开发生态,我用了 10 年,可以说它是 PHP 生态里最重要的工具,没有之一。不过我和 Composer 的关系一开始并不顺利——从刚接触时的一脸懵逼,到后来真正理解它的…

【开题答辩全过程】以 基于SpringBoot的校园一卡通管理系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

深度学习中常用的激活函数

参考文章: Activation Functions — All You Need To Know! | by Sukanya Bag | Analytics Vidhya | Medium 深度学习笔记:如何理解激活函数?(附常用激活函数) - 知乎 part-0_13.pdf 机器学习中的数学——激活函数&…

无恶意软件勒索:Storm-0501如何转向云原生攻击

Storm-0501基于云的勒索攻击链概览 | 图片来源:微软微软威胁情报部门最新研究显示,以经济利益为目的的威胁组织Storm-0501已将其勒索软件攻击模式从传统本地部署系统显著转向云原生攻击。报告警告称,该组织"持续优化攻击活动&#xff0c…

k8s--etcd

目录 静态pod 使用步骤: 关键特性说明: 常见使用场景: 案例: 环境变量 配置全景解析 实操:​​ 查看etcd集群节点信息 查看集群健康状态 数据库操作命令 增加(put) 查询(get) 删除(del) 租约命令 添加…

PowerPoint和WPS演示如何在放映PPT时用鼠标划重点

在播放PPT的时候,可以在屏幕上右键,在WPS演示中设置“墨迹画笔”为鼠标以外的其他笔形,在PowerPoint中设置指针选项为其他笔形,然后点击鼠标左键即可对屏幕上的内容进行标记。如果要退出,同样的路径操作取消鼠标形状即…

销售事业十年规划,并附上一套能帮助销售成长的「软件工具组合」

销售事业十年规划,并附上一套能帮助销售成长的 软件工具组合。这样你既有职业发展的路线图,也有日常可用的工具支撑。🔟 年销售事业规划 第1-2年:打基础目标:掌握销售流程,建立第一个客户池。重点&#xff…

如何在赛中完整的呈现数学建模模型

数模的完备性一直是国赛中评审的重点,也是大家赛中最容易失分的点。具体来讲,2023年C题国一使用了ARIMA,很多省三论文也是ARIMA。二者之所以出现这种巨大的等级差异不是因为模型问题,而是后者模型并不完备,缺少很多模型必要元素。…

蜂窝物联网模组:电动两轮车新国标实施下的关乎安全与智能化支撑

蜂窝物联网模组正成为电动两轮车新国标实施后不可或缺的关键部件,这一转变源于新国标对电动自行车安全性和智能化的强制性要求 。2025年9月1日起正式实施的GB17761—2024《电动自行车安全技术规范》不仅强化了防火阻燃、防篡改等安全标准,还首次将北斗定…

DevOps篇之利用Jenkins实现多K8S集群的版本发布

重点说明 在 Jenkins 中实现多 K8s 集群的版本发布与版本控制,核心在于解决集群身份认证、配置隔离、发布策略协调、版本统一追溯四大问题。以下是具体实现方案,结合工具链集成与流水线设计,确保多集群环境下的发布一致性与可控性。 一、核心…

Day16_【机器学习—KNN算法】

一、KNN 简介KNN:K-近邻算法 (K Nearest Neighbor)算法思想:一个样本最相似的 k 个样本中的大多数属于某一个类别,则该样本也属于这个类别距离计算:欧氏距离二、KNN 解决两类问题分类问题与回归问题分类流程…

《架构师手记:SpringCloud整合Nacos实战·一》

《架构师手记:SpringCloud整合Nacos实战一》 🌈 第一章:SpringCloud与Nacos的初识之旅 引言 在微服务架构的浪潮中,服务发现和配置管理成为了每个架构师必须面对的挑战。今天,我们将开启一段SpringCloud与Nacos的探…

卷积神经网络训练全攻略:从理论到实战

卷积神经网络(Convolutional Neural Networks, CNN)作为深度学习的重要分支,已成为计算机视觉领域的核心技术。从图像分类到目标检测,从人脸识别到医学影像分析,CNN 展现出了强大的特征提取和模式识别能力。本文将全面…