网络结构
Attention模块详解
左边服装通过qwen2.5-VL-7B来生成详细的服装描述;线条提取器产生相应的线条map;garment和line map通过vae转换为潜在空间特征,然后分别经过patchfier,最后通过zero proj得到Garment Tokens和Line Tokens;右边是dit中的attention block模块(只包括cross attention部分),首先是Input Tokens 经过线性层和经过clip的图像tokens做交叉注意力计算,Text Tokens (文本通过umt5 文本编码器得到)经过线性层和经过线性层的Input Tokens 进行交叉注意力计算,后面将经过交叉注意力计算的文本特征和图像特征相加在一起;FGCA也同样是交叉注意力,只不过他们是将Line Tokens和Garment Tokens经过Linear得到的K,V分别堆叠在一起后再和Input Tokens进行叉注意力计算。最后将所有的经过注意力计算的特征相加在一起。需要注意的是一个轻量化Adapter模块:自适应服装特征分布 .
训练目标函数
引入了一个mask区域loss计算,加强需要生成的衣服区域的生成保真度。
数据和评估指标
数据
VITON-HD
DressCode
ViViD
评估指标
SSIM, LPIPS, FID, and KID;前两个主要专注于两个图像像素的相似度,后两个主要专注于两个图像像素分布的相似度
实现细节
预训练模型Wan2.1-Fun-14B-Control
第一阶段使用分辨率256-512的分辨率训练,第二阶段继续训练,在512-1024分辨率上
训练视频49帧,batch_size为2。第一阶段15k步数,第二阶段10K步数。
优化器 AdamW,学习率1e-5
机器配置8 NVIDIA H20 (96GB) GPUs
参考论文
https://arxiv.org/pdf/2505.21325
目前代码未开源