MajicTryOn(基于wanvideo的虚拟试穿项目)

MajicTryOn(基于wanvideo的虚拟试穿项目)

bicheng/2025/6/7 16:47:53/文章来源:https://blog.csdn.net/qq_44091004/article/details/148483833

网络结构

Attention模块详解

左边服装通过qwen2.5-VL-7B来生成详细的服装描述；线条提取器产生相应的线条map；garment和line map通过vae转换为潜在空间特征，然后分别经过patchfier,最后通过zero proj得到Garment Tokens和Line Tokens;右边是dit中的attention block模块(只包括cross attention部分)，首先是Input Tokens 经过线性层和经过clip的图像tokens做交叉注意力计算，Text Tokens (文本通过umt5 文本编码器得到)经过线性层和经过线性层的Input Tokens 进行交叉注意力计算，后面将经过交叉注意力计算的文本特征和图像特征相加在一起；FGCA也同样是交叉注意力，只不过他们是将Line Tokens和Garment Tokens经过Linear得到的K，V分别堆叠在一起后再和Input Tokens进行叉注意力计算。最后将所有的经过注意力计算的特征相加在一起。需要注意的是一个轻量化Adapter模块：自适应服装特征分布 .

训练目标函数

引入了一个mask区域loss计算，加强需要生成的衣服区域的生成保真度。

数据和评估指标

数据

VITON-HD

DressCode

ViViD

评估指标

SSIM, LPIPS, FID, and KID；前两个主要专注于两个图像像素的相似度，后两个主要专注于两个图像像素分布的相似度

实现细节

预训练模型Wan2.1-Fun-14B-Control

第一阶段使用分辨率256-512的分辨率训练，第二阶段继续训练，在512-1024分辨率上

训练视频49帧，batch_size为2。第一阶段15k步数，第二阶段10K步数。

优化器 AdamW,学习率1e-5

机器配置8 NVIDIA H20 (96GB) GPUs

参考论文

https://arxiv.org/pdf/2505.21325

目前代码未开源

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.pswp.cn/bicheng/83899.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

JAVA-什么是JDK？

JAVA-什么是JDK？

1.JDK 的定义 JDK（Java Development Kit）是 Java 开发工具包，是 Oracle 官方提供的用于开发、编译和运行 Java 应用程序的核心工具集。它包含了编写 Java 程序所需的编译器、调试工具、库文件以及运行时环境（JRE）。 2…

阅读更多...

Palo Alto Networks Expedition存在命令注入漏洞(CVE-2025-0107)

Palo Alto Networks Expedition存在命令注入漏洞(CVE-2025-0107)

免责声明本文档所述漏洞详情及复现方法仅限用于合法授权的安全研究和学术教育用途。任何个人或组织不得利用本文内容从事未经许可的渗透测试、网络攻击或其他违法行为。使用者应确保其行为符合相关法律法规，并取得目标系统的明确授权。对于因不当使用本文信息而造成的任何直…

阅读更多...

分布式光纤传感（DAS）技术应用解析：从原理到落地场景

分布式光纤传感（DAS）技术应用解析：从原理到落地场景

近年来，分布式光纤传感（Distributed Acoustic Sensing，DAS）技术正悄然改变着众多传统行业的感知方式。它将普通的通信光缆转化为一个长距离、连续分布的“听觉传感器”，对振动、声音等信号实现高精度、高灵敏度的监测。…

阅读更多...

独家首发！低照度环境下YOLOv8的增强方案——从理论到TensorRT部署

独家首发！低照度环境下YOLOv8的增强方案——从理论到TensorRT部署

文章目录引言一、低照度图像增强技术现状1.1 传统低照度增强方法局限性1.2 深度学习-based方法进展二、Retinexformer网络原理2.1 Retinex理论回顾2.2 Retinexformer创新架构2.2.1 光照感知Transformer2.2.2 多尺度Retinex分解2.2.3 自适应特征融合三、YOLOv8-Retinexformer…

阅读更多...

96. 2017年蓝桥杯省赛 - Excel地址（困难）- 进制转换

96. 2017年蓝桥杯省赛 - Excel地址（困难）- 进制转换

96. Excel地址（进制转换） 1. 2017年蓝桥杯省赛 - Excel地址（困难） 标签：2017 省赛 1.1 题目描述 Excel 单元格的地址表示很有趣，它使用字母来表示列号。比如， A 表示第 1 列，…

阅读更多...

EtherNet/IP转DeviceNet协议网关详解

EtherNet/IP转DeviceNet协议网关详解

一，设备主要功能疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络，本网关连接到EtherNet/IP总线中做为从站使用，连接到DeviceNet总线中做为从站使用。在自动…

阅读更多...

Druid连接池实现自定义数据库密码加解密功能详解

Druid连接池实现自定义数据库密码加解密功能详解

Druid连接池实现自定义数据库密码加解密功能详解在企业级应用开发中，数据库密码的明文存储是一个显著的安全隐患。Druid作为阿里巴巴开源的高性能数据库连接池组件，提供了灵活的密码加密与解密功能，允许开发者通过自定义逻辑实现数据库密码…

阅读更多...

生成 Git SSH 证书

生成 Git SSH 证书

🔑 1. 生成 SSH 密钥对在终端（Windows 使用 Git Bash，Mac/Linux 使用 Terminal）执行命令： ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明： -t rsa&#x…

阅读更多...

Java并发编程实战 Day 12：阻塞队列与线程协作

Java并发编程实战 Day 12：阻塞队列与线程协作

【Java并发编程实战 Day 12】阻塞队列与线程协作开篇欢迎来到“Java并发编程实战”系列的第12天！今天我们将深入探讨阻塞队列（BlockingQueue）及其在线程协作中的应用。阻塞队列是Java并发编程中一个非常重要的工具，它不仅简化…

阅读更多...

Linux 前后端项目问题排查命令手册

Linux 前后端项目问题排查命令手册

一、系统资源监控类命令 1. CPU 资源排查 top - 动态实时监控进程 top [选项] 常用选项： -d 2 # 每2秒刷新一次 -H # 显示线程信息 -p 1234 # 仅监控PID为1234的进程输出解读： %Cpu(s)：总 CPU 使用率，用户态 + 内核态KiB Mem：内…

阅读更多...

Git 3天2K星标：Datawhale 的 Happy-LLM 项目介绍（附教程）

Git 3天2K星标：Datawhale 的 Happy-LLM 项目介绍（附教程）

引言在人工智能飞速发展的今天，大语言模型（Large Language Models, LLMs）已成为技术领域的焦点。从智能写作到代码生成，LLM 的应用场景不断扩展，深刻改变了我们的工作和生活方式。然而，理解这些模型的内部…

阅读更多...

vue3前端实现导出Excel功能

vue3前端实现导出Excel功能

前端实现导出功能可以使用一些插件我使用的是xlsx库 1.首先我们需要在vue3的项目中安装xlsx库。可以使用npm 或者 pnpm来进行安装 npm install xlsx或者 pnpm install xlsx2.在vue组件中引入xlsx库 import * as XLSX from xlsx;3.定义导出实例方法 const exportExcel () …

阅读更多...

【C++特殊工具与技术】优化内存分配(一)：C++中的内存分配

【C++特殊工具与技术】优化内存分配(一)：C++中的内存分配

目录一、C 内存的基本概念 1.1 内存的物理与逻辑结构 1.2 C 程序的内存区域划分二、栈内存分配 2.1 栈内存的特点 2.2 栈内存分配示例三、堆内存分配 3.1 new和delete操作符 4.2 内存泄漏与悬空指针问题 4.3 new和delete的重载四、智能指针…

阅读更多...

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

目录一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…

阅读更多...

Redis配合唯一序列号实现接口幂等性方案

Redis配合唯一序列号实现接口幂等性方案

1.原理可以在客户端每次请求服务端的时候，客户端请求中携带一个短时间内唯一不重复的序列号来确保其唯一性，这个序列号常见的几种形式有：基于时间戳、用户ID和随机数的组合；基于请求的来源与客户端生成的唯一序列号组合 2.方案…

阅读更多...

代码安全规范1.1

代码安全规范1.1

命令注入是指应用程序执行命令的字符串或字符串的一部分来源于不可信赖的数据源，程序没有对这些不可信赖的数据进行验证、过滤，导致程序执行恶意命令的一种攻击方式。例 1 ：以下代码通过 Runtime.exec() 方法调用 Windows 的 dir 命…

阅读更多...

Jenkins实现自动化部署Springboot项目到Docker容器(Jenkinsfile)

Jenkins实现自动化部署Springboot项目到Docker容器(Jenkinsfile)

Jenkins实现自动化部署Springboot项目到Docker容器引言：为什么需要自动化部署？在软件开发中，频繁的手动部署既耗时又容易出错。通过 Docker + Jenkins + Git 的组合，您可以实现： ✅ 一键部署：代码推送后自动构建和部署🐳 环境一致性：Docker 确保开发、测试、生产环…

阅读更多...

第二届智慧教育与计算机技术国际学术会议（IECT 2025）

第二届智慧教育与计算机技术国际学术会议（IECT 2025）

在数字化浪潮中，智慧教育与计算机技术的深度融合正重构教育生态。智能教学系统打破传统课堂的单向灌输模式，通过机器学习分析学习数据，为学生生成个性化学习路径，推动被动接受向主动探索转型。这对教育体系提出核心诉求&#xff1…

阅读更多...

驱控边界在哪里？知名舵机品牌伟创动力CNTE2025展带来答案

驱控边界在哪里？知名舵机品牌伟创动力CNTE2025展带来答案

2025年6月12日，北京国防科技装备展将再度启幕。作为微型驱控领域的代表性厂商，伟创动力（Kpower）将带来覆盖舵机、减速齿轮箱、无刷电机及一体化驱控模组在内的全系解决方案，舵机产品回应一个至关重要的技术命题——“国…

阅读更多...

Day46 Python打卡训练营

Day46 Python打卡训练营

知识点回顾： 1. 不同CNN层的特征图：不同通道的特征图 2. 什么是注意力：注意力家族，类似于动物园，都是不同的模块，好不好试了才知道。 3. 通道注意力：模型的定义和插入的位置 4. 通道注意力后…

阅读更多...

最新文章