(Arxiv-2025)Stand-In：一种轻量化、即插即用的身份控制方法用于视频生成

Stand-In：一种轻量化、即插即用的身份控制方法用于视频生成

paper是WeChat发布在Arxiv 2025的工作

paper title:Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation

Code：链接

图1：给定一张参考图像，我们的方法能够生成具有强身份保持的视频。此外，该框架的即插即用设计能够无缝集成到各种应用中，以增强身份一致性。

Abstract

在生成式人工智能领域，生成与用户指定身份匹配的高保真人类视频非常重要但具有挑战性。现有方法通常依赖于大量的训练参数，并且缺乏与其他AIGC工具的兼容性。本文提出了一种名为Stand-In的轻量化即插即用框架，用于视频生成中的身份保持。具体而言，我们在预训练的视频生成模型中引入了条件图像分支。通过带有条件位置映射的受限自注意力机制实现身份控制，并且仅需2000对数据即可快速学习。尽管只引入并训练了约1%的额外参数，我们的框架在视频质量和身份保持方面取得了优异的效果，超过了其他全参数训练方法。此外，我们的框架还可无缝集成到其他任务中，如基于主体驱动的视频生成、基于姿态参考的视频生成、风格化以及人脸替换。

Introduction

随着扩散模型（Ho, Jain, and Abbeel 2020; Podell et al. 2024; Peebles and Xie 2023）的快速发展，视频生成（Zheng et al. 2024; Peng et al. 2025; Kong et al. 2024; Hong et al. 2023）已成为生成式人工智能的重要组成部分。在其多样化的应用中，身份保持的视频生成具有深远意义。该任务的目标是生成高质量的视频，并始终保持给定参考图像（包含人脸）的身份一致性。这一技术在电影、广告、游戏等行业中具有广泛的应用价值。

现有方法可分为两类：传统方法（He et al. 2024; Yuan et al. 2025b）使用显式的人脸编码器提取身份特征；最新方法（Hu et al. 2025; Liu et al. 2025）则完全训练扩散变换器。然而，基于人脸编码器的方法缺乏灵活性，难以捕捉高质量视频生成所需的细致面部细节；全参数训练方法则需要大量参数，并且与其他应用缺乏兼容性。因此，以轻量化且灵活的方式实现稳健的身份保持依然是关键且具有挑战性的问题。

为克服这些局限性，我们利用视频生成模型本身的预训练VAE，使条件图像能够直接映射到与视频相同的潜空间中。该方法自然地利用了模型固有的能力来提取丰富且细致的面部特征，提供了更为集成和高效的解决方案。此外，为实现轻量化设计并避免引入过多参数，我们采用了带有条件位置映射的受限自注意力机制。一方面，这可以有效地将参考图像的特征融合到视频中；另一方面，它不会改变视频生成主模型的架构，因此可在其他应用中以即插即用的方式使用，如图1所示。实验结果表明，在身份保持视频生成中，我们的方法在面部相似度和自然度上均达到最高水平，同时所需训练的参数量最少（如图2所示）。凭借其即插即用能力，我们的框架可扩展至多种任务，包括主体驱动生成、视频风格化和人脸替换，同时保持身份一致性。此外，通过与VACE（Jiang et al. 2025）的兼容集成，我们的方法在姿态引导视频生成中显著提升了面部相似度。

图2：与SOTA身份保持视频生成方法的对比。气泡的大小表示身份保持所需训练的参数数量。我们的方法在面部相似度和自然度方面均取得最高性能，同时使用的参数最少。

我们的主要贡献总结如下：

我们提出了Stand-In，这是一种轻量化且即插即用的身份保持视频生成框架。仅需引入并训练约1%的额外参数，即可在身份保持、视频质量和提示遵循方面实现SOTA性能。
为在无显式人脸特征提取器的情况下注入身份信息，我们在视频生成模型中引入了条件图像分支。图像与视频分支通过带有条件位置映射的受限自注意力机制共享信息。借助这一轻量化设计，仅使用小规模数据集即可很好地学习身份保持。
所提框架具有高度的兼容性和泛化性。尽管仅在真人数据上进行训练，我们的方法也能泛化到卡通、物体等其他主体。此外，我们的方法可即插即用地应用于姿态引导视频生成、视频风格化和人脸替换等任务。

Related Work

视频生成模型当前的视频生成模型主要构建在扩散框架（Ho, Jain, and Abbeel 2020）之上，其架构从基于U-Net的设计（Blattmann et al. 2023）显著发展到基于DiT的方法（Kong et al. 2024; Team 2025; Ma et al. 2025）。在基于U-Net的扩散模型时代，文本到图像（T2I）框架（Rombach et al. 2022; Podell et al. 2024）通过引入3D卷积和时间注意力（Blattmann et al. 2023）扩展到了视频生成。AnimateDiff（Guo et al. 2024）进一步推动了这一方向的发展，通过添加时间层重用预训练的文本到图像模型权重，以利用其强大的空间生成能力。Latte（Ma et al. 2025）引入了时空分离机制，将不同的DiT模块分别用于处理空间和时间信息。该方法后来被3D全注意力机制所取代，从而实现了更为一体化的处理。CogVideoX（Yang et al. 2025）和HunyuanVideo（Kong et al. 2024）结合了3D-VAE（Yu et al. 2024）与MM-DiT（Esser et al. 2024）以增强视频生成能力。WAN2.1（Team 2025）采用3D-VAE并使用DiT骨干网络进行去噪，通过交叉注意力将语义提示信息注入扩散过程。

身份保持生成传统方法通常依赖显式人脸编码器进行面部特征提取，以生成身份保持的视频。IDanimator（He et al. 2024）将预训练的文本到视频扩散模型与轻量化人脸适配器结合，从可调的人脸潜在查询中编码与身份相关的嵌入。ConsistID（Yuan et al. 2025b）旨在通过扩散变换器中的频率分解来保持身份一致性。Phantom（Liu et al. 2025）也可以在人物领域中保持身份一致性，作为一个统一的主体一致性视频生成框架。HunyuanCustom（Hu et al. 2025）是一个多模态定制化视频生成框架，强调身份一致性，同时支持多样化的输入模态。它通过引入先进的条件注入机制和身份保持策略，在高质量视频生成中取得了优异的性能。他们对扩散变换器进行了全量微调，导致可训练参数数量庞大。

Method

在本节中，我们首先介绍所提方法的整体框架。接着，详细说明带有条件位置映射的受限自注意力机制。最后，我们给出数据收集过程。

Conditional Image Branch

为提取面部特征，传统方法依赖显式人脸编码器，这类方法缺乏灵活性，并且常常无法保留高质量重建所需的精细面部细节。相比之下，我们提出利用视频生成模型的预训练VAE。

该策略将条件图像直接映射到与视频相同的潜空间中，使我们能够自然地利用预训练视频生成模型的内在能力来提取丰富的面部特征。

整体框架如图3所示。我们采用Wan2.1 14B T2V（Team 2025）作为视频生成基础模型，该模型使用扩散变换器（DiT）架构。给定一张包含人脸的参考图像，我们首先使用预训练VAE编码器将其编码到潜空间中。图像潜向量与视频潜向量经历相同的分块和编码过程。

图3：我们的身份保持文本到视频生成框架概览。我们在原有视频分支的基础上引入了条件图像分支。给定条件图像，VAE编码器将其映射为token，这些token与视频潜token进行拼接，然后送入DiT。在DiT模块中，通过受限自注意力机制将身份信息融入视频特征中。

随后，图像token与视频token在序列维度上进行拼接，并通过连续的网络模块联合处理。最后，在最终层中丢弃图像token。

设 $s$ 表示扩散过程中的去噪时间步。为了保持参考图像的静态特性（其作为条件输入而非参与去噪过程），我们保持其时间不变性。这通过将其时间步固定为零来实现，即 $s_{ref} = 0$ 。

现在，我们已经将条件图像编码到与视频相同的特征空间中，接下来的挑战是：如何让视频特征能够以轻量且易于学习的方式有效地引用图像信息？

Restricted Self-Attention

在上述DiT模块中，参考图像token和视频token在大多数模块（包括层归一化、交叉注意力和前馈网络）中是独立处理的，唯一的例外是自注意力层。自注意力层能够在所有token之间进行信息交换，从而自然地使视频token能够引用身份信息。然而，由于参考图像作为静态条件存在，它应当不受视频动态内容的影响。因此，为了在引入身份信息的同时保持其独立性，我们提出将DiT中的自注意力层替换为一种受限版本，该版本显式地防止图像查询访问视频键。

如图4所示，对于一个自注意力层，我们首先分别为图像和视频token计算Query、Key和Value，分别记为 $Q_I, K_I, V_I$ 和 $Q_V, K_V, V_V$ 。随后，我们将 $K_V$ 与 $K_I$ 拼接，并将 $V_V$ 与 $V_I$ 拼接用于 $Q_V$ 。为了增强模型在保持固有生成鲁棒性的同时利用身份相关信息的能力，我们在图像token的QKV投影中引入了低秩适配（LoRA）。

图4：我们的受限自注意力设计：对于输入的视频token和图像token，我们分别计算它们的Query、Key和Value矩阵。接着，对Query和Key矩阵应用3D RoPE。最后，图像矩阵独立运行，而视频的Query则使用图像与视频的Key和Value矩阵拼接后进行注意力计算。

条件位置映射 为了在受限自注意力中有效区分图像token和视频token，我们使用了一种专门的条件位置映射策略。具体而言，我们采用三维旋转位置嵌入（3D RoPE）（Su et al. 2024），其中所有与参考图像相关的token都被分配到一个独立且专用的坐标空间。这种设计确保了参考图像与视频token之间的清晰分离，并有助于精确建模二者的交互关系。

在时间维度上，我们为参考图像token分配固定的时间因子-1，而将视频token映射到非负的时间位置。这种分配方式将图像token建立为时间不变的条件输入，从而引导模型在整个去噪过程中将参考图像的身份信息作为恒定指导，而不是与视频时间序列中的瞬态帧特定特征混淆。

在空间维度上，我们采用不重叠的坐标策略，以实现参考图像与视频内容的空间解耦。视频帧在坐标域 $\in [0,H_V) \times [0,W_V)$ 内分布，而参考图像token被映射到专用的坐标子空间 $[HV,HV+HI)×[WV,WV+WI)[H_V, H_V+H_I) \times [W_V, W_V+W_I)$ ，其中 $H_I$ 和 $W_I$ 表示参考图像的空间尺寸。

这种不重叠的空间分配通过几何分离实现了两个主要目标：一方面，自然减少了虚假的空间相关性，防止模型过度依赖像素级匹配；另一方面，保持参考图像的语义意义，将其作为全局身份先验。这样，模型会更专注于从参考token中提取整体语义特征，而不是将其视为必须在位置上与视频内容对齐的局部模式。

设 $p_I$ 为图像token的坐标， $p_V$ 为视频token的坐标，我们对视频token应用3D RoPE的方式如下：
$QI′=QI⋅pI,KI′=KI⋅pI,(1)Q'_I = Q_I \cdot p_I,\quad K'_I = K_I \cdot p_I, \tag{1}$
$QV′=QV⋅pV,KV′=KV⋅pV,(2)Q'_V = Q_V \cdot p_V,\quad K'_V = K_V \cdot p_V, \tag{2}$
其中 $⋅\cdot$ 表示Hadamard积。受限自注意力的输出计算为：
$OutI=Attention(QI′,KI′,VI),(3)\text{Out}_I = \text{Attention}(Q'_I, K'_I, V_I), \tag{3}$
$OutV=Attention(QV′,[KV′,KI′],[VV,VI]),(4)\text{Out}_V = \text{Attention}(Q'_V, [K'_V, K'_I], [V_V, V_I]), \tag{4}$
其中 $[,][\, , \,]$ 表示拼接操作。

KV缓存由于条件图像的时间步固定为 $s_{ref}=0$ ，其Key和Value矩阵在整个扩散去噪过程中保持不变。因此，在推理时我们可以缓存 $K_I$ 和 $V_I$ 以加速计算。这些矩阵在第一次去噪步骤中计算并存储，后续步骤无需重复计算。

Dataset Collection and Processing

我们构建了一个以人为中心的视频数据集，包含来自公开可用来源的2000段高分辨率视频序列。该数据集保证了多样且全面的表现形式，包括不同种族、年龄范围、性别身份以及多种多样的动作。利用VILA（Lin et al. 2024）多模态标注框架，我们为每个视频自动生成密集的文本标注，从而实现了强文本-视频对齐。

为使数据集与我们的视频生成基础模型（Team 2025）的预训练分布保持一致，并减轻生成质量可能的下降，我们对视频进行了如下预处理：每段视频重采样为25 FPS，然后裁剪并调整为832×480像素的分辨率。在这些处理后的视频中，我们随机采样连续81帧的片段用于训练。

对于每个视频片段，相应的参考人脸图像从原始（未重采样）视频中提取，具体流程如下：

从原始视频中随机选取5帧。
使用RetinaFace（Deng et al. 2020）检测并裁剪人脸区域。
将裁剪的人脸图像调整为512×512像素。
使用BiSeNet（Yu et al. 2018）进行人脸解析，并将背景替换为纯白色，以防止背景信息泄露。

用于训练的最终图文视频对示例如图5所示。

图5：我们以人为中心的视频数据集示例。

Experiments

Implementation Details

我们采用秩为128的LoRA，仅应用于每个DiT模块中图像token的QKV投影。对于参数量为14B的Wan2.1模型，这仅增加了1.53亿个可训练参数（占基础模型的1%），使前馈计算时间增加了3.6%，FLOPs增加了2.6%。在使用KV缓存进行推理时，开销极小：运行时间仅比视频生成基础模型增加2.3%，FLOPs仅增加0.07%。这一可以忽略的成本表明，我们的身份保持方法是轻量化的。模型在Nvidia H20 GPU上以批量大小48训练3000步。在推理过程中，BiSeNet被用作自动预处理步骤。