(Arxiv-2025)Stand-In:一种轻量化、即插即用的身份控制方法用于视频生成

Stand-In:一种轻量化、即插即用的身份控制方法用于视频生成

paper是WeChat发布在Arxiv 2025的工作

paper title:Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

Code:链接

图1

图1:给定一张参考图像,我们的方法能够生成具有强身份保持的视频。此外,该框架的即插即用设计能够无缝集成到各种应用中,以增强身份一致性。

Abstract

在生成式人工智能领域,生成与用户指定身份匹配的高保真人类视频非常重要但具有挑战性。现有方法通常依赖于大量的训练参数,并且缺乏与其他AIGC工具的兼容性。本文提出了一种名为Stand-In的轻量化即插即用框架,用于视频生成中的身份保持。具体而言,我们在预训练的视频生成模型中引入了条件图像分支。通过带有条件位置映射的受限自注意力机制实现身份控制,并且仅需2000对数据即可快速学习。尽管只引入并训练了约1%的额外参数,我们的框架在视频质量和身份保持方面取得了优异的效果,超过了其他全参数训练方法。此外,我们的框架还可无缝集成到其他任务中,如基于主体驱动的视频生成、基于姿态参考的视频生成、风格化以及人脸替换。

Introduction

随着扩散模型(Ho, Jain, and Abbeel 2020; Podell et al. 2024; Peebles and Xie 2023)的快速发展,视频生成(Zheng et al. 2024; Peng et al. 2025; Kong et al. 2024; Hong et al. 2023)已成为生成式人工智能的重要组成部分。在其多样化的应用中,身份保持的视频生成具有深远意义。该任务的目标是生成高质量的视频,并始终保持给定参考图像(包含人脸)的身份一致性。这一技术在电影、广告、游戏等行业中具有广泛的应用价值。

现有方法可分为两类:传统方法(He et al. 2024; Yuan et al. 2025b)使用显式的人脸编码器提取身份特征;最新方法(Hu et al. 2025; Liu et al. 2025)则完全训练扩散变换器。然而,基于人脸编码器的方法缺乏灵活性,难以捕捉高质量视频生成所需的细致面部细节;全参数训练方法则需要大量参数,并且与其他应用缺乏兼容性。因此,以轻量化且灵活的方式实现稳健的身份保持依然是关键且具有挑战性的问题。

为克服这些局限性,我们利用视频生成模型本身的预训练VAE,使条件图像能够直接映射到与视频相同的潜空间中。该方法自然地利用了模型固有的能力来提取丰富且细致的面部特征,提供了更为集成和高效的解决方案。此外,为实现轻量化设计并避免引入过多参数,我们采用了带有条件位置映射的受限自注意力机制。一方面,这可以有效地将参考图像的特征融合到视频中;另一方面,它不会改变视频生成主模型的架构,因此可在其他应用中以即插即用的方式使用,如图1所示。实验结果表明,在身份保持视频生成中,我们的方法在面部相似度和自然度上均达到最高水平,同时所需训练的参数量最少(如图2所示)。凭借其即插即用能力,我们的框架可扩展至多种任务,包括主体驱动生成、视频风格化和人脸替换,同时保持身份一致性。此外,通过与VACE(Jiang et al. 2025)的兼容集成,我们的方法在姿态引导视频生成中显著提升了面部相似度。

图2

图2:与SOTA身份保持视频生成方法的对比。气泡的大小表示身份保持所需训练的参数数量。我们的方法在面部相似度和自然度方面均取得最高性能,同时使用的参数最少。

我们的主要贡献总结如下:

  • 我们提出了Stand-In,这是一种轻量化且即插即用的身份保持视频生成框架。仅需引入并训练约1%的额外参数,即可在身份保持、视频质量和提示遵循方面实现SOTA性能。
  • 为在无显式人脸特征提取器的情况下注入身份信息,我们在视频生成模型中引入了条件图像分支。图像与视频分支通过带有条件位置映射的受限自注意力机制共享信息。借助这一轻量化设计,仅使用小规模数据集即可很好地学习身份保持。
  • 所提框架具有高度的兼容性和泛化性。尽管仅在真人数据上进行训练,我们的方法也能泛化到卡通、物体等其他主体。此外,我们的方法可即插即用地应用于姿态引导视频生成、视频风格化和人脸替换等任务。

Related Work

视频生成模型 当前的视频生成模型主要构建在扩散框架(Ho, Jain, and Abbeel 2020)之上,其架构从基于U-Net的设计(Blattmann et al. 2023)显著发展到基于DiT的方法(Kong et al. 2024; Team 2025; Ma et al. 2025)。在基于U-Net的扩散模型时代,文本到图像(T2I)框架(Rombach et al. 2022; Podell et al. 2024)通过引入3D卷积和时间注意力(Blattmann et al. 2023)扩展到了视频生成。AnimateDiff(Guo et al. 2024)进一步推动了这一方向的发展,通过添加时间层重用预训练的文本到图像模型权重,以利用其强大的空间生成能力。Latte(Ma et al. 2025)引入了时空分离机制,将不同的DiT模块分别用于处理空间和时间信息。该方法后来被3D全注意力机制所取代,从而实现了更为一体化的处理。CogVideoX(Yang et al. 2025)和HunyuanVideo(Kong et al. 2024)结合了3D-VAE(Yu et al. 2024)与MM-DiT(Esser et al. 2024)以增强视频生成能力。WAN2.1(Team 2025)采用3D-VAE并使用DiT骨干网络进行去噪,通过交叉注意力将语义提示信息注入扩散过程。

身份保持生成 传统方法通常依赖显式人脸编码器进行面部特征提取,以生成身份保持的视频。IDanimator(He et al. 2024)将预训练的文本到视频扩散模型与轻量化人脸适配器结合,从可调的人脸潜在查询中编码与身份相关的嵌入。ConsistID(Yuan et al. 2025b)旨在通过扩散变换器中的频率分解来保持身份一致性。Phantom(Liu et al. 2025)也可以在人物领域中保持身份一致性,作为一个统一的主体一致性视频生成框架。HunyuanCustom(Hu et al. 2025)是一个多模态定制化视频生成框架,强调身份一致性,同时支持多样化的输入模态。它通过引入先进的条件注入机制和身份保持策略,在高质量视频生成中取得了优异的性能。他们对扩散变换器进行了全量微调,导致可训练参数数量庞大。

Method

在本节中,我们首先介绍所提方法的整体框架。接着,详细说明带有条件位置映射的受限自注意力机制。最后,我们给出数据收集过程。

Conditional Image Branch


为提取面部特征,传统方法依赖显式人脸编码器,这类方法缺乏灵活性,并且常常无法保留高质量重建所需的精细面部细节。相比之下,我们提出利用视频生成模型的预训练VAE。

该策略将条件图像直接映射到与视频相同的潜空间中,使我们能够自然地利用预训练视频生成模型的内在能力来提取丰富的面部特征。

整体框架如图3所示。我们采用Wan2.1 14B T2V(Team 2025)作为视频生成基础模型,该模型使用扩散变换器(DiT)架构。给定一张包含人脸的参考图像,我们首先使用预训练VAE编码器将其编码到潜空间中。图像潜向量与视频潜向量经历相同的分块和编码过程。

图3

图3:我们的身份保持文本到视频生成框架概览。我们在原有视频分支的基础上引入了条件图像分支。给定条件图像,VAE编码器将其映射为token,这些token与视频潜token进行拼接,然后送入DiT。在DiT模块中,通过受限自注意力机制将身份信息融入视频特征中。

随后,图像token与视频token在序列维度上进行拼接,并通过连续的网络模块联合处理。最后,在最终层中丢弃图像token。

sss表示扩散过程中的去噪时间步。为了保持参考图像的静态特性(其作为条件输入而非参与去噪过程),我们保持其时间不变性。这通过将其时间步固定为零来实现,即sref=0s_{ref} = 0sref=0

现在,我们已经将条件图像编码到与视频相同的特征空间中,接下来的挑战是:如何让视频特征能够以轻量且易于学习的方式有效地引用图像信息?

Restricted Self-Attention


在上述DiT模块中,参考图像token和视频token在大多数模块(包括层归一化、交叉注意力和前馈网络)中是独立处理的,唯一的例外是自注意力层。自注意力层能够在所有token之间进行信息交换,从而自然地使视频token能够引用身份信息。然而,由于参考图像作为静态条件存在,它应当不受视频动态内容的影响。因此,为了在引入身份信息的同时保持其独立性,我们提出将DiT中的自注意力层替换为一种受限版本,该版本显式地防止图像查询访问视频键。

如图4所示,对于一个自注意力层,我们首先分别为图像和视频token计算Query、Key和Value,分别记为QI,KI,VIQ_I, K_I, V_IQI,KI,VIQV,KV,VVQ_V, K_V, V_VQV,KV,VV。随后,我们将KVK_VKVKIK_IKI拼接,并将VVV_VVVVIV_IVI拼接用于QVQ_VQV。为了增强模型在保持固有生成鲁棒性的同时利用身份相关信息的能力,我们在图像token的QKV投影中引入了低秩适配(LoRA)。

图4

图4:我们的受限自注意力设计:对于输入的视频token和图像token,我们分别计算它们的Query、Key和Value矩阵。接着,对Query和Key矩阵应用3D RoPE。最后,图像矩阵独立运行,而视频的Query则使用图像与视频的Key和Value矩阵拼接后进行注意力计算。

条件位置映射 为了在受限自注意力中有效区分图像token和视频token,我们使用了一种专门的条件位置映射策略。具体而言,我们采用三维旋转位置嵌入(3D RoPE)(Su et al. 2024),其中所有与参考图像相关的token都被分配到一个独立且专用的坐标空间。这种设计确保了参考图像与视频token之间的清晰分离,并有助于精确建模二者的交互关系。

在时间维度上,我们为参考图像token分配固定的时间因子-1,而将视频token映射到非负的时间位置。这种分配方式将图像token建立为时间不变的条件输入,从而引导模型在整个去噪过程中将参考图像的身份信息作为恒定指导,而不是与视频时间序列中的瞬态帧特定特征混淆。

在空间维度上,我们采用不重叠的坐标策略,以实现参考图像与视频内容的空间解耦。视频帧在坐标域(h,w)∈[0,HV)×[0,WV)(h,w) \in [0,H_V) \times [0,W_V)(h,w)[0,HV)×[0,WV)内分布,而参考图像token被映射到专用的坐标子空间[HV,HV+HI)×[WV,WV+WI)[H_V, H_V+H_I) \times [W_V, W_V+W_I)[HV,HV+HI)×[WV,WV+WI),其中HIH_IHIWIW_IWI表示参考图像的空间尺寸。

这种不重叠的空间分配通过几何分离实现了两个主要目标:一方面,自然减少了虚假的空间相关性,防止模型过度依赖像素级匹配;另一方面,保持参考图像的语义意义,将其作为全局身份先验。这样,模型会更专注于从参考token中提取整体语义特征,而不是将其视为必须在位置上与视频内容对齐的局部模式。

pIp_IpI为图像token的坐标,pVp_VpV为视频token的坐标,我们对视频token应用3D RoPE的方式如下:
QI′=QI⋅pI,KI′=KI⋅pI,(1)Q'_I = Q_I \cdot p_I,\quad K'_I = K_I \cdot p_I, \tag{1} QI=QIpI,KI=KIpI,(1)
QV′=QV⋅pV,KV′=KV⋅pV,(2)Q'_V = Q_V \cdot p_V,\quad K'_V = K_V \cdot p_V, \tag{2} QV=QVpV,KV=KVpV,(2)
其中⋅\cdot表示Hadamard积。受限自注意力的输出计算为:
OutI=Attention(QI′,KI′,VI),(3)\text{Out}_I = \text{Attention}(Q'_I, K'_I, V_I), \tag{3} OutI=Attention(QI,KI,VI),(3)
OutV=Attention(QV′,[KV′,KI′],[VV,VI]),(4)\text{Out}_V = \text{Attention}(Q'_V, [K'_V, K'_I], [V_V, V_I]), \tag{4} OutV=Attention(QV,[KV,KI],[VV,VI]),(4)
其中[,][\, , \,][,]表示拼接操作。

KV缓存 由于条件图像的时间步固定为sref=0s_{ref}=0sref=0,其Key和Value矩阵在整个扩散去噪过程中保持不变。因此,在推理时我们可以缓存KIK_IKIVIV_IVI以加速计算。这些矩阵在第一次去噪步骤中计算并存储,后续步骤无需重复计算。

Dataset Collection and Processing


我们构建了一个以人为中心的视频数据集,包含来自公开可用来源的2000段高分辨率视频序列。该数据集保证了多样且全面的表现形式,包括不同种族、年龄范围、性别身份以及多种多样的动作。利用VILA(Lin et al. 2024)多模态标注框架,我们为每个视频自动生成密集的文本标注,从而实现了强文本-视频对齐。

为使数据集与我们的视频生成基础模型(Team 2025)的预训练分布保持一致,并减轻生成质量可能的下降,我们对视频进行了如下预处理:每段视频重采样为25 FPS,然后裁剪并调整为832×480像素的分辨率。在这些处理后的视频中,我们随机采样连续81帧的片段用于训练。

对于每个视频片段,相应的参考人脸图像从原始(未重采样)视频中提取,具体流程如下:

  1. 从原始视频中随机选取5帧。
  2. 使用RetinaFace(Deng et al. 2020)检测并裁剪人脸区域。
  3. 将裁剪的人脸图像调整为512×512像素。
  4. 使用BiSeNet(Yu et al. 2018)进行人脸解析,并将背景替换为纯白色,以防止背景信息泄露。

用于训练的最终图文视频对示例如图5所示。

图5

图5:我们以人为中心的视频数据集示例。

Experiments

Implementation Details


我们采用秩为128的LoRA,仅应用于每个DiT模块中图像token的QKV投影。对于参数量为14B的Wan2.1模型,这仅增加了1.53亿个可训练参数(占基础模型的1%),使前馈计算时间增加了3.6%,FLOPs增加了2.6%。在使用KV缓存进行推理时,开销极小:运行时间仅比视频生成基础模型增加2.3%,FLOPs仅增加0.07%。这一可以忽略的成本表明,我们的身份保持方法是轻量化的。模型在Nvidia H20 GPU上以批量大小48训练3000步。在推理过程中,BiSeNet被用作自动预处理步骤。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/93335.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/93335.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据科学与爬虫技术学习笔记

数据科学与爬虫技术学习笔记 一、数据科学基础库 1. NumPy:数值计算的基石 NumPy 是 Python 科学计算的核心库,专为数组和矩阵操作设计,能大幅简化循环操作,提供丰富的数学函数。 核心优势:高效处理同类型元素的多维…

学习嵌入式之硬件——I2C

一、I2C1.定义内部集成电路的简称,半双工串行同步通信,是芯片和芯片之间的通信方式;通常只有一个主机,多个从机,采用主从应答的方式上图所示是IIC的总线的使用场景,所有挂载在IIC总线上的设备都有两根信号线…

使用websockt

封装websocktHooksimport { ref, onMounted, onUnmounted } from vue;/*** webSocket的Hooks* param {string} websocket链接地址* */ export function useWebSocket(url: string) {// 核心状态 const data: Ref<any> ref(null);//收到websocket返回的数据const socke…

Jmeter自定义脚本

目录 log&#xff1a;输出类 Label&#xff1a;你自定义的组件的名称 FileName&#xff1a;添加的脚本文件的文件名 Parameters&#xff1a;你传入的参数&#xff0c;是一个字符串 args&#xff1a;你传入的参数&#xff0c;是一个数组 Parameters和args的异同&#xff1…

飞算 JavaAI 电商零售场景实践:从订单峰值到供应链协同的全链路技术革新

目录 一、电商核心场景的技术攻坚 1.1 分布式订单系统的事务一致性设计 1.1.1 TCC 模式下的订单创建流程 1.1.2 订单状态机的可靠流转 1.2 高并发秒杀系统的架构设计 1.2.1 多级限流与流量削峰 1.2.2 库存防超卖机制 1.3 智能推荐与用户行为分析 1.3.1 用户行为实时采…

51单片机-51单片机介绍

51单片机介绍单片机简介什么是单片机呢&#xff1f;单片机是一种集成电路芯片&#xff0c;采用超大规模集成电路技术将中央处理器&#xff08;CPU&#xff09;、随机存储器&#xff08;RAM&#xff09;、只读存储器&#xff08;ROM&#xff09;、多种I/O口、中断系统、定时器/计…

8月AI面试工具测评:破解规模化招聘难题

金秋校招临近&#xff0c;企业面临“百万简历涌入VS面试官团队告急”的典型困境。传统线下面试效率低下、标准参差&#xff0c;难以应对短时间内爆发式的人才筛选需求。AI面试工具凭借自动化与智能化特性成为破局关键&#xff0c;但市面上产品良莠不齐——究竟哪款能兼顾效率与…

Debian新一代的APT软件源配置文件格式DEB822详解

Debian 的 DEB822 格式详解&#xff1a;新一代 APT 源配置 DEB822 是一种基于 RFC 822 数据格式的配置文件语法&#xff0c;Debian 新一代的 APT 软件源配置文件格式就采用了 DEB822。DEB822 格式从 Debian 11 (Bullseye) 开始被引入&#xff0c;并在 Debian 12 (Bookworm) 中成…

实战 AI8051U 音视频播放:USART-SPI→DMA-P2P→SPI+I2S 例程详解

视频P2P播放&#xff0c;时间计算&#xff1a;fps20,50ms 周期刷屏时间&#xff1a;160*80 一帧刷屏时间28.2ms帧间隔&#xff1a;50ms-28.2ms21.8ms音频双缓冲区交叉播放&#xff0c;利用视频播放帧间隔加载下一个缓冲区音频数据&#xff0c;时间计算&#xff1a;16000采样率 …

解释器模式C++

解释器模式&#xff08;Interpreter Pattern&#xff09;是一种行为型设计模式&#xff0c;它用于定义一种语言的语法规则&#xff0c;并构建一个解释器来解释该语言中的句子。这种模式适用于需要处理固定语法规则的场景&#xff0c;如表达式解析、配置文件解析等。 解释器模式…

debian 13 显示中文字体 不再显示菱形块 终端显示中文

找了很多坑。。其它就安装一下中文字体即可 。 apt install ttf-wqy-zenhei 之后测试命令 fc-list &#xff1a;langzh 显示了刚字体的路径和中文字即成功了。 rootdebian:~# dpkg-reconfigure locales 以上命令配置中文语言。 debian 12.11 安装 MySQL 下载配置文件 &am…

51单片机-驱动蜂鸣器模块教程

本章概述思维导图&#xff1a; 51单片机驱动蜂鸣器模块教程 蜂鸣器简介 蜂鸣器是一种将电信号转换为声音信号的电子元件&#xff0c;广泛应用于报警、提示、通知等场景。其核心原理基于压电效应或电磁感应&#xff1a;因此可分为两种类型蜂鸣器&#xff1a;压电式蜂鸣器和电磁…

常用Linux指令:Java/MySQL/Tomcat/Redis/Nginx运维指南

一、基础Linux指令1. 文件与目录操作ls -lh # 查看文件详情(人类可读格式) pwd # 显示当前目录路径 cd /path # 切换目录 mkdir dirname # 创建目录 rm -rf dirname # 强制删除目录 cp -r src dest # 递归复制目录 mv old new # 移动/重命…

小红书帖子评论的nodejs爬虫脚本

从小红书上爬取评论&#xff0c;但是目前还不能完全爬取子评论&#xff0c;使用GPT没能解决这个问题。后续博主可能会改进。或者如果你懂的话&#xff0c;可以在博主代码基础上改进。需要安装nodejs软件&#xff0c;部署环境变量。博主是在pycharm中运行的。代码无套路获取。自…

【iOS】多线程原理

目录 前言 基本概念及原理 线程、进程与队列 线程的定义&#xff1a; 进程的定义&#xff1a; 线程与进程之间的联系与区别&#xff1a; 线程和runloop的关系 影响任务执行速度的因素 多线程 多线程生命周期 线程池的原理 iOS中多线程的实现方式 线程安全问题 互斥…

药房发药的“时间密码”:同步时钟用药安全?

在医院的药房里&#xff0c;每一粒药片的流转都暗藏“时间密码”。从药品入库到患者服药&#xff0c;时间记录的精确性直接关乎生命安全。一旦时间数据出现偏差&#xff0c;轻则导致用药争议&#xff0c;重则引发医疗事故。近年来&#xff0c;随着医疗数字化进程加速&#xff0…

UI-TARS-Desktop 深度解析:下一代智能自动化桌面平台

目录 1. 产品概述 2. 核心功能与技术架构 2.1 关键技术 2.2 功能亮点 3. 竞品对比分析 4. 部署与成本分析 4.1 部署方案 4.2 隐性成本 5. 商业化前景 5.1 目标市场 5.2 盈利模式 5.3 风险挑战 6. 未来演进方向 7. 总结 1. 产品概述 UI-TARS-Desktop 是一款基于A…

STM32L051同时处理Alarm A和Alarm B中断

同时处理Alarm A和Alarm B中断 当同时启用Alarm A和Alarm B时&#xff0c;需要在中断处理程序中准确判断是哪个闹钟触发了中断。以下是完整的解决方案&#xff1a; 中断判断与处理流程 1. 在RTC中断服务程序中判断中断源 // stm32l0xx_it.c void RTC_IRQHandler(void) {/* USER…

OpenCV---morphologyEx形态学操作

在计算机视觉与图像处理领域&#xff0c;形态学操作是一种基于图像形状的非线性处理方法&#xff0c;广泛应用于噪声去除、边缘检测、目标分割等任务。OpenCV提供的morphologyEx函数是形态学操作的“瑞士军刀”&#xff0c;它整合了多种高级形态学运算&#xff0c;能够实现开运…

RuoYi-Cloud 接入 Sentinel 的 3 种限流方式

场景&#xff1a; 服务&#xff1a;ruoyi-robot&#xff08;对外接口统一在 /external/gs/**&#xff09; 网关&#xff1a;ruoyi-gateway&#xff08;转发到 ruoyi-robot&#xff09; 注册/配置&#xff1a;Nacos 流控&#xff1a;Sentinel 1.8.x 控制台 Dashboard&#x…