腾讯开源视频生成工具 HunyuanVideo-Avatar,上传一张图+一段音频,就能让图中的人物、动物甚至虚拟角色“活”过来,开口说话、唱歌、演相声!

腾讯混元团队提出的 HunyuanVideo-Avatar 是一个基于多模态扩散变换器(MM-DiT)的模型,能够生成动态、情绪可控和多角色对话视频。支持仅 10GB VRAM 的单 GPU运行,支持多种下游任务和应用。例如生成会说话的虚拟形象视频,可用于电商、在线直播、社交媒体视频制作等。此外,其多角色动画功能则拓展了视频内容创作、编辑等应用场景。

相关链接

  • 论文:https://arxiv.org/pdf/2505.20156

  • 主页:https://hunyuanvideo-avatar.github.io

  • 试用:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126

  • 代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

论文介绍

HunyuanVideo-Avatar:高保真音频驱动的多角色人体动画

HunyuanVideo-Avatar:高保真音频驱动的多角色人体动画

近年来,音频驱动的人体动画取得了显著进展。然而,在以下方面仍然存在关键挑战:

  • 生成高动态视频的同时保持角色的一致性

  • 实现角色和音频之间的精确情绪对齐

  • 实现多角色音频驱动的动画。

为了应对这些挑战,论文提出了 HunyuanVideo-Avatar,这是一个基于多模态扩散变换器 (MM-DiT) 的模型,能够同时生成动态的、情绪可控的和多角色对话的视频。具体而言,HunyuanVideo-Avatar 引入了三个关键创新:

  • 设计了一个角色图像注入模块来取代传统的基于加法的角色条件方案,消除了训练和推理之间固有的条件不匹配。这确保了动态运动和强大的角色一致性;

  • 引入了一个音频情绪模块 (AEM) 来从情绪参考图像中提取和传输情绪线索到目标生成的视频,从而实现细粒度和准确的情绪风格控制;

  • 提出了一种人脸感知音频适配器 (FAA),利用潜在级别人脸遮罩技术隔离音频驱动角色,从而能够在多角色场景中通过交叉注意力机制实现独立的音频注入。

这些创新使 HunyuanVideo-Avatar 在基准数据集和新提出的野外数据集上超越了最先进的方法,能够在动态沉浸式场景中生成逼真的虚拟角色。

方法概述

混元视频虚拟形象的框架。 它由三部分组成:(1)角色图像注入模块,确保角色在保持高动态的同时保持高度一致性;(2)音频情绪模块,将视频中角色的面部表情与音频中的情绪进行匹配;(3)人脸感知音频适配器,支持音频驱动的多角色

混元视频-头像主要特点

HunyuanVideo-Avatar 支持将任意输入的虚拟形象动画化为高动态、可控情绪的视频,并支持简单的音频条件。具体而言,它以任意比例和分辨率的多风格虚拟形象作为输入。该系统支持多种风格的虚拟形象,包括照片级写实、卡通、3D 渲染和拟人化角色。多尺度生成涵盖肖像、上半身和全身。它生成具有高动态前景和背景的视频,实现卓越的真实感和自然度。此外,该系统还支持根据输入音频控制角色的面部情绪。

要求

  • 需要支持 CUDA 的 NVIDIA GPU。

  • 该模型在具有8GPU的机器上进行测试。

  • 最低要求:704px768px129f 所需的最低 GPU 内存为 24GB,但速度非常慢。

  • 建议:建议使用具有 96GB 内存的 GPU 以获得更好的生成质量。

  • 提示:如果使用80GB内存的GPU出现OOM,请尝试降低图片分辨率。

  • 测试的操作系统:Linux

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/82966.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek-R1-0528:开源推理模型的革新与突破

一、 发布日期与背景 2025年5月29日,备受业界关注的DeepSeek推理模型DeepSeek-R1迎来重要更新——DeepSeek-R1-0528模型正式发布。此次更新采取了“静默发布”策略,未提前预告,而是通过官方渠道(官网、App、小程序)及…

LeetCode 1723: 完成所有工作的最短时间

给你一个整数数组 jobs ,其中 jobs[i] 是完成第 i 项工作要花费的时间。 请你将这些工作分配给 k 位工人。所有工作都应该分配给工人,且每项工作只能分配给一位工人。工人的 工作时间 是完成分配给他们的所有工作花费时间的总和。请你设计一套最佳的工作…

JDK8新特性之Steam流

这里写目录标题 一、Stream流概述1.1、传统写法1.2、Stream写法1.3、Stream流操作分类 二、Stream流获取方式2.1、根据Collection获取2.2、通过Stream的of方法 三、Stream常用方法介绍3.1、forEach3.2、count3.3、filter3.4、limit3.5、skip3.6、map3.7、sorted3.8、distinct3.…

split方法

在编程中,split 方法通常用于将字符串按照指定的分隔符拆分成多个部分,并返回一个包含拆分结果的列表(或数组)。不同编程语言中的 split 方法语法略有不同,但核心功能相似。以下是常见语言中的用法: ​1. P…

深入理解 x86 汇编中的符号扩展指令:从 CBW 到 CDQ 的全解析

引入 在汇编语言的世界里,数据宽度的转换是一项基础却至关重要的操作。尤其是在处理有符号数时,符号扩展(Sign Extension)作为保持数值符号一致性的核心技术,直接影响着运算结果的正确性。本文将聚焦 x86 架构中最常用…

计算机基础知识(第五篇)

计算机基础知识(第五篇) 架构演化与维护 软件架构的演化和定义 软件架构的演化和维护就是对架构进行修改和完善的过程,目的就是为了使软件能够适应环境的变化而进行的纠错性修改和完善性修改等,是一个不断迭代的过程&#xff0…

前端开发三剑客:HTML5+CSS3+ES6

在前端开发领域,HTML、CSS和JavaScript构成了构建网页与Web应用的核心基础。随着技术标准的不断演进,HTML5、CSS3以及ES6(ECMAScript 2015及后续版本)带来了诸多新特性与语法优化,极大地提升了开发效率和用户体验。本文…

c++ 头文件

目录 防止头文件重复包含 头文件的作用 如何让程序的多个 .cpp 文件之间共享全局变量(可能是 int、结构体、数组、指针、类对象)? 防止头文件重复包含 为什么要防止头问件重复包含? 当然一般也不会把变量定义放到头问件,那为…

深入解析 JavaScript 中 var、let、const 的核心区别与实践应用

一、历史背景与语法基础 JavaScript 作为动态弱类型语言,变量声明机制经历了从 ES5 到 ES6 的重大变革。在 ES5 及更早版本中,var 是唯一的变量声明方式,而 ES6(2015 年)引入了 let 和 const,旨在解决 var…

【Linux庖丁解牛】—自定义shell的编写!

1. 打印命令行提示符 在我们使用系统提供的shell时,每次都会打印出一行字符串,这其实就是命令行提示符,那我们自定义的shell当然也需要这一行字符串。 这一行字符串包含用户名,主机名,当前工作路径,所以&a…

应用案例 | 设备分布广, 现场维护难? 宏集Cogent DataHub助力分布式锅炉远程运维, 让现场变“透明”

在日本,能源利用与环保问题再次成为社会关注的焦点。越来越多的工业用户开始寻求更高效、可持续的方式来运营设备、管理能源。而作为一家专注于节能与自动化系统集成的企业,日本大阪的TESS工程公司给出了一个值得借鉴的答案。 01 锅炉远程监控难题如何破…

【OSG学习笔记】Day 16: 骨骼动画与蒙皮(osgAnimation)

骨骼动画基础 骨骼动画是 3D 计算机图形中常用的技术,它通过以下两个主要组件实现角色动画。 骨骼系统 (Skeleton):由层级结构的骨头组成,类似于人体骨骼蒙皮 (Mesh Skinning):将模型网格顶点绑定到骨骼上,使骨骼移动…

jdk同时安装多个版本并自由切换

一、安装不同版本的JDK 二、配置环境变量(多版本JDK) 1. 新建版本专用环境变量(用于切换) 操作位置:系统变量 > 新建 变量名:JAVA_HOME_1.8 变量值:JDK 8安装路径变量名:JAVA1…

java中装饰模式

目录 一 装饰模式案例说明 1.1 说明 1.2 代码 1.2.1 定义数据服务接口 1.2.2 定义基础数据库服务实现 1.2.3 日志装饰器 1.2.4 缓存装饰器 1.2.5 主程序调用 1.3 装饰模式的特点 一 装饰模式案例说明 1.1 说明 本案例是:数据查询增加缓存,使用…

【论文阅读】YOLOv8在单目下视多车目标检测中的应用

Application of YOLOv8 in monocular downward multiple Car Target detection​​​​​ 原文真离谱,文章都不全还发上来 引言 自动驾驶技术是21世纪最重要的技术发展之一,有望彻底改变交通安全和效率。任何自动驾驶系统的核心都依赖于通过精确物体检…

在uni-app中如何从Options API迁移到Composition API?

uni-app 从 Options API 迁移到 Composition API 的详细指南 一、迁移前的准备 升级环境: 确保 HBuilderX 版本 ≥ 3.2.0项目 uni-app 版本 ≥ 3.0.0 了解 Composition API 基础: 响应式系统:ref、reactive生命周期钩子:onMount…

408第一季 - 数据结构 - 图

图的概念 完全图 无向图的完全图可以这么想:如果有4个点,每个点都会连向3个点,每个点也都会有来回的边,所以除以2 有向图就不用除以2 连通分量 不多解释 极大连通子图的意思就是让你把所有连起来的都圈出来 强连通图和强连通…

31.2linux中Regmap的API驱动icm20608实验(编程)_csdn

regmap 框架就讲解就是上一个文章,接下来学习编写的 icm20608 驱动改为 regmap 框架。 icm20608 驱动我们在之前的文章就已经编写了! 因为之前已经对icm20608的设备树进行了修改,所以大家可以看到之前的文章!当然这里我们还是带领…

Vue速查手册

Vue速查手册 CSS deep用法 使用父class进行限定&#xff0c;控制影响范围&#xff1a; <template><el-input class"my-input" /> </template><style scoped> /* Vue 3 推荐写法 */ .my-input :deep(.el-input__inner) {background-color…

振动力学:无阻尼多自由度系统(受迫振动)

本文从频域分析和时域分析揭示系统的运动特性&#xff0c;并给出系统在一般形式激励下的响应。主要讨论如下问题&#xff1a;频域分析、频响函数矩阵、反共振、振型叠加法等。 根据文章1中的式(1.7)&#xff0c;可知无阻尼受迫振动的初值问题为&#xff1a; M u ( t ) K u …