MultiTalk 是一种音频驱动的多人对话视频生成模型

TL;DR:MultiTalk 是一种音频驱动的多人对话视频生成。它支持多人对话💬、唱🎤歌、交互控制和👬卡通🙊的视频创建。

视频演示

 001.mp4 

 004.mp4 

 003.mp4 

 002.mp4 

 005.mp4 

 006.mp4 

 003.mp4 

 002.mp4 

 003.mp4 

✨ 主要特点

我们提出了 MultiTalk ,一种用于音频驱动的多人对话视频生成的新颖框架。给定一个多流音频输入、一个参考图像和一个提示,MultiTalk 会生成一个视频,其中包含跟随提示的交互,并与音频保持一致的嘴唇动作。

  • 💬 真实的对话 - 支持单人和多人生成
  • 👥 交互式角色控制 - 通过提示引导虚拟人
  • 🎤 泛化表演 - 支持生成卡通人物和歌唱
  • 📺 分辨率灵活性:任意纵横比下的480p和720p输出
  • ⏱️ 长视频生成:支持最长 15 秒的视频生成

🧱模型准备

1. 模型下载
模型下载链接笔记
广域网2.1-I2V-14B-480P🤗 拥抱脸基本模型
中文-WAV2VEC2-基🤗 拥抱脸音频编码器
美原-MultiTalk🤗 拥抱脸我们的音频条件权重

使用 huggingface-cli 下载模型:

huggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P --local-dir ./weights/Wan2.1-I2V-14B-480P
huggingface-cli download TencentGameMate/chinese-wav2vec2-base --local-dir ./weights/chinese-wav2vec2-base
huggingface-cli download MeiGen-AI/MeiGen-MultiTalk --local-dir ./weights/MeiGen-MultiTalk
2. 将 MultiTalk 模型链接或复制到 wan2.1-I2V-14B-480P 目录

链接方式:

mv weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json_old
sudo ln -s {Absolute path}/weights/MeiGen-MultiTalk/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/
sudo ln -s {Absolute path}/weights/MeiGen-MultiTalk/multitalk.safetensors weights/Wan2.1-I2V-14B-480P/

或者,通过以下方式复制:

mv weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/diffusion_pytorch_model.safetensors.index.json_old
cp weights/MeiGen-MultiTalk/diffusion_pytorch_model.safetensors.index.json weights/Wan2.1-I2V-14B-480P/
cp weights/MeiGen-MultiTalk/multitalk.safetensors weights/Wan2.1-I2V-14B-480P/

🔑 快速推理

我们的型号兼容 480P 和 720P 分辨率。当前代码仅支持 480P 推理。720P 推理需要多个 GPU,我们将很快提供更新。

一些提示

  • 唇形同步精度: 音频 CFG 在 3-5 之间效果最佳。增加音频 CFG 值以获得更好的同步。
  • 视频剪辑长度:该模型以 25 FPS 的速度在 81 帧视频上进行训练。为了获得最佳的提示跟随性能,请在 81 帧处生成剪辑。最多可以生成 201 帧,但较长的剪辑可能会降低提示跟随性能。
  • 长视频生成:音频 CFG 会影响各段落之间的色调一致性。将此值设置为 3 可减轻色调变化。
  • 采样步骤:如果你想快速生成视频,你可以将采样步骤减少到 10 个甚至 10 个,这不会损害嘴唇同步的准确性,但会影响动作和视觉质量。采样步骤越多,视频质量越好。
1. 单人
1) 生成一个 1 块的短视频
python generate_multitalk.py --ckpt_dir weights/Wan2.1-I2V-14B-480P \--wav2vec_dir 'weights/chinese-wav2vec2-base' --input_json examples/single_example_1.json --sample_steps 40 --frame_num 81 --mode clip --save_file single_exp
2) 长视频生成
python generate_multitalk.py --ckpt_dir weights/Wan2.1-I2V-14B-480P \--wav2vec_dir 'weights/chinese-wav2vec2-base' --input_json examples/single_example_1.json --sample_steps 40 --mode streaming --save_file single_long_exp
2. 多人
1) 生成一个 1 块的短视频
python generate_multitalk.py --ckpt_dir weights/Wan2.1-I2V-14B-480P \--wav2vec_dir 'weights/chinese-wav2vec2-base' --input_json examples/multitalk_example_1.json --sample_steps 40 --frame_num 81 --mode clip --save_file multi_exp
2) 长视频生成
python generate_multitalk.py --ckpt_dir weights/Wan2.1-I2V-14B-480P \--wav2vec_dir 'weights/chinese-wav2vec2-base' --input_json examples/multitalk_example_2.json --sample_steps 40 --mode streaming --save_file multi_long_exp

MultiTalk,这是一种用于音频驱动的多人对话视频生成的新颖框架。给定一个多流音频输入、一个参考图像和一个提示,MultiTalk 会生成一个视频,其中包含跟随提示的交互,并与音频保持一致的嘴唇动作。

生成卡通视频

生成歌唱视频

生成遵循指令的视频

在一个舒适、温暖的房间里,尼克·王尔德(Nick Wilde)——一只带着调皮的笑容的狐狸——坐在朱迪·霍普斯(Judy Hopps)对面,朱迪·霍普斯(Judy Hopps)是一只表情坚定的兔子。 两人都穿着休闲;Nick 穿着绿色衬衫和条纹领带,Judy 穿着蓝色衣服,耳机放在桌子上。 他们之间的木桌上放着一个迪士尼品牌的杯子。 背景以质朴的内饰为特色,配有灯、窗户和各种家居用品,营造出温馨的氛围。 当 Nick 拿起杯子并轻轻触摸 Judy 的头部时,一个中景镜头捕捉到了他们的互动,暗示了一段友情和联系。

一男一女坐在户外的桌子旁,正在进行交谈。 这位女士身穿浅粉色上衣和白色开衫,手里拿着一个红色的罩杯 咖啡,啜饮一口,然后将其放回碟子上。那个男人,穿着 一件条纹衬衫套在一件白色 T 恤上,全神贯注地看着他的智能手机 专心致志地向下。桌子上装饰着两杯红色咖啡和一个盘子 配羊角面包。背景是一条迷人的欧洲街道,色彩柔和。 建筑物、绿色植物和一把半开着的绿色伞。场景捕获 一个随意的日常时刻,拥有温暖、诱人的氛围。

两个人坐在工作室的白色桌子旁,工作室里有蓝白相间的吸音墙板。 左边的一名男子穿着深色休闲上衣,手里拿着一个咖啡杯。 右边的女人身边放着一副录音室耳机。 男人在说话,而女人在听,偶尔点头。 女人拿起黑色耳机。大型壁挂式电视显示技术接口。 该场景暗示了在明亮的工作室环境中配备专业视听设备的协作工作空间。

More creative videos

Abstract

Audio-driven human animation methods, such as talking head and talking body generation, have made remarkable progress in generating synchronized facial movements and appealing visual quality videos. However, existing methods primarily focus on single human animation and struggle with multi-stream audio inputs, facing incorrect binding problems between audio and persons. Additionally, they exhibit limitations in instruction-following capabilities. To solve this problem, in this paper, we propose a novel task: Multi-Person Conversational Video Generation, and introduce a new framework, MultiTalk, to address the challenges during multi-person generation. Specifically, for audio injection, we investigate several schemes and propose the Label Rotary Position Embedding (L-RoPE) method to resolve the audio and person binding problem. Furthermore, during training, we observe that partial parameter training and multi-task training are crucial for preserving the instruction-following ability of the base model. MultiTalk achieves superior performance compared to other methods on several datasets, including talking head, talking body, and multi-person datasets, demonstrating the powerful generation capabilities of our approach.

Method

In this work, we propose MultiTalk, an audio-driven video generation framework. Our framework incorporates an additional audio cross-attention layer to support audio conditions. To achieve multi-person conversational video generation, we propose a Label Rotary Position Embedding (L-RoPE) for multi-stream audio injection.

    MultiTalk,一个音频驱动的视频生成框架。 我们的框架包含一个额外的音频交叉注意力层来支持音频条件。 为了实现多人对话视频的生成,我们提出了一种用于多流音频注入的标签旋转位置嵌入 (L-RoPE)。

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/83580.shtml

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    实现无缝连接:EtherNet/IP转CANopen网关助力汽车制造智能化未来

    在如今这个高度自动化的汽车制造行业,设备之间的互操作性变得越来越重要,在一条自动化装配线上,贝加莱的PLC和CANopen伺服驱动器以及通过EtherNet/IP转CANopen网关(稳联技术的WL-EIP-COP)紧密合作,带来了精…

    音视频之H.264的句法和语义

    系列文章: 1、音视频之视频压缩技术及数字视频综述 2、音视频之视频压缩编码的基本原理 3、音视频之H.264/AVC编码器原理 4、音视频之H.264的句法和语义 在编码器输出的码流中,数据的基本单位是句法元素。每个句法元素由若干比特组成,它表…

    M - 中位数

    Description 给定一个长度为 NN 的非负整数序列 AA,对于前奇数项求中位数。 Input 第一行一个正整数 NN。 第二行 NN 个正整数 A1…NA1…N​。 Output 共 ⌊N12⌋⌊2N1​⌋ 行,第 ii 行为 A1…2i−1A1…2i−1​ 的中位数。 Sample 1 InputcopyOu…

    医疗耗材领域LCS4110R加密芯片应用

    医疗器械和医美器械应用广泛,需求增加,发展迅速。医疗器械和医美器械的使用关系到人民群众的健康安全,以至于生命安全。假冒伪劣器械产品的混入导致对患者的健康危害,同时也损害了设备厂商的利益。防复制加密认证芯片LCS4110R应用…

    数据结构与算法:贪心(一)

    前言 有一说一贪心的题目真的ex,想不到就是想不到…… 一、贪心 贪心就是通过在过程中每次达到局部最优,从而在最后实现整体最优。贪心的题目经常要用到排序和堆。 越打cf越能感受到贪心的奇妙,很吃状态和灵感。解题的过程中往往依赖举大量例子,然后进行总结和归纳,然…

    5、Spring AI(MCPServer+MCPClient+Ollama)开发环境搭建_第一篇

    前言: 该开发环境是在 3、后端持久化(SpringBoot3.5.0MybatisPlus3.5.5mysql8.4.0)环境搭建 上进行改造的,用到了后端持久化,主要改造的地方为数据库把email字段改为height(身高),…

    个典型的 Java 泛型在反序列化场景下“类型擦除 + 无法推断具体类型”导致的隐性 Bug

    今天遇到一个问题:一个典型的 Java 泛型在反序列化场景下“类型擦除 无法推断具体类型”导致的隐性 Bug,尤其是在 RPC(如 Dubbo、Feign 等)和 本地 JVM 内直连调用共存时,这种问题会显现得非常明显。 A 服务暴露了一…

    开发指南121-微服务的弹性伸缩

    平台的后台服务表现形式就是各种各样的微服务。微服务可以部署在不同的机器上。单一服务的伸缩很简单: 部署在不同机器上,直接启动关闭即可。 部署在同一机器上,可以复制为多个不同目录,其中jar包,启动文件是完全一样…

    【C++特殊工具与技术】优化内存分配(六):运行时类型识别

    目录 一、RTTI 的核心机制与设计背景 1.1 RTTI 的设计目标 1.2 RTTI 的启动条件 二、dynamic_cast:动态类型转换 2.1 语法与核心特性 2.2 转换场景详解 2.3 引用类型转换与异常处理 2.4 性能注意事项 三、typeid:类型信息查询 3.1 语法与核心特…

    USB串口通信、握手协议、深度学习等技术要点

    基于OpenMV的智能车牌识别系统:从硬件到算法的完整实现 前言 本文将详细介绍一个基于OpenMV微控制器的智能车牌识别系统的设计与实现。该系统集成了嵌入式视觉处理、串口通信协议、深度学习OCR识别等多种技术,实现了从图像采集到车牌识别的完整流程。 …

    猎板PCB:手机主板pcb需要做哪些可靠性测试

    在智能手机高度普及的今天,一块指甲盖大小的主板承载着通信、计算、影像等核心功能。当消费者为新机性能欢呼时,鲜少有人关注到主板PCB(印刷电路板)在幕后经历的严苛考验。这些隐藏在金属外壳下的精密线路,需要经过多轮…

    Java并发编程实战 Day 21:分布式并发控制

    【Java并发编程实战 Day 21】分布式并发控制 文章简述: 在高并发和分布式系统中,传统的线程级锁已无法满足跨节点的同步需求。本文深入讲解了分布式并发控制的核心概念与技术方案,包括分布式锁、一致性算法(如Paxos、Raft&#x…

    C语言文件操作与预处理详解

    目录 文件操作文件基本概念文件指针文件打开模式文件读取操作字符读取字符串读取格式化读取二进制读取 文件写入操作字符写入字符串写入格式化写入二进制写入 文件定位操作文件错误处理 预处理预处理基本概念常见预处理指令文件包含指令宏定义简单宏带参数的宏字符串化操作符(#…

    水库大坝安全监测之渗流监测

    水库大坝的渗流状况直接关系到其结构稳定性与安全运行。渗流可能引发坝体内部土体的渗透变形,如管涌、流土等现象,削弱坝体强度,严重时甚至导致大坝垮塌,威胁下游人民生命财产安全。通过渗流监测,能够实时掌握坝体及坝…

    windows使用命令行查看进程信息

    在 Windows 操作系统中,您可以使用多种命令行工具来查看进程信息。以下是几种常用方法: 1. 使用 tasklist 命令(最常用) 查看所有进程的基本信息: tasklist输出示例: 映像名称 PID…

    【C#】多级缓存与多核CPU

    多级缓存(如CPU的L1/L2/L3缓存)与多核处理器之间存在紧密的协同与竞争关系,直接影响系统性能。以下是关键影响及优化策略: 一、缓存层级与多核的协作机制 缓存结构 L1缓存 私有缓存:每个CPU核心独享,容量小…

    PostgreSQL的扩展adminpack

    PostgreSQL的扩展adminpack adminpack 是 PostgreSQL 提供的一个管理扩展,它包含多个实用函数,帮助数据库管理员执行文件系统操作和维护任务。这个扩展通常由数据库超级用户使用,提供了一些服务器端的文件访问功能。 一、adminpack 扩展概述…

    Unity | AmplifyShaderEditor插件基础(第九集:旗子进阶版)

    目录 一、👋🏻前言 二、准备工作 1.下载安装插件ProBuilder 2.下载安装插件Polybrush 3.固定原理 4.旗子 三、顶点上色 1.创建一个可以顶点上色的材质 2.开始上色 a.上色功能说明 b.全部上色 c.调整刷子 四、shader的设置 1.幅度添加 2.顶…

    Java 实现 Excel 转化为 PDF

    引言 在实际开发中,将 Excel 文件转化为 PDF 格式是一项常见需求。例如在需要共享数据报表时,PDF 格式具有更好的兼容性和安全性。GrapeCity Documents for Excel(GcExcel)为 Java 开发者提供了强大的工具,可轻松实现…

    Spring Boot3批式访问Dify聊天助手接口

    Spring Boot3批式访问Dify聊天助手接口 前言 之前已经配置好Dify1.4.1及LM Studio集成: https://lizhiyong.blog.csdn.net/article/details/148607462 现在就可以借助Spring Boot3去访问Dify的后端接口,让前端展示大模型的返回内容。这是我等大数据资…