论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing

Step1X-Edit 论文
当前图像编辑数据集规模小,质量差,由此构建了如下数据构造管线。
在这里插入图片描述
高质量三元组数据(源图像、编辑指令、目标图像)。

  • 主体添加与移除:使用 Florence-2 对专有数据集标注,然后使用 SAM2 进行分割,再使用 ObjectRemovalAlpha 进行修复。编辑指令结合 Step-1o 和 GPT-4o 生成,然后人工审查有效性。
  • 主体替换与背景更改:使用 Florence-2 对专有数据集标注,然后使用 SAM2 进行分割,再使用 Qwen-2.5VL 和 Recognize-Anything Model 识别目标对象和关键词,使用 Flux-Fill 进行内容感知修复。指令由 Step-1o 生成并人工审查。
  • 色彩更改与材质修改:在图像中检测到对象后,使用 Zeodepth 深度估计,使用带扩散模型的 ControlNet 生成新图像。
  • 文本修改:使用 PPOCR 识别字符,以及 Step-1o 模型区分文本正确、错误区域。同样生成编辑指令。
  • 运动变化:使用 Koala-36M 的视频,提取帧作为输入,使用 BiRefNet 和 RAFT 进行前景-背景和光流估计,再用 GPT-4o 标记帧间运动变化作为编辑指令。
  • 人像编辑与美化:对于动画风格和真实图像,先提取边缘,再利用 ControlNet 进行风格迁移。
  • 采用上下文、双语标注。

在这里插入图片描述
之前的模态融合,FLUX-Fill 使用通道连接,但面对图像编辑指令不够灵活(难以处理局部调整、缺乏语义对齐、难以处理复杂指令);SeedEdit 引入额外的因果自注意力,但会牺牲图像细粒度;DreamEngine 利用 Qwen 对图像和文本模态对齐,建立了共享表征空间,难以完全捕捉图像细粒度(更关注语义对齐)。
Step1X-Edit

  • 输入的编辑指令和参考图像首先通过MLLM进行处理。为了隔离和强调与编辑任务相关的语义元素,选择性地丢弃与系统前缀相关的标记嵌入,仅保留与编辑信息直接对齐的嵌入。
  • 提取的嵌入被输入到轻量级的连接器模块,重构为更紧凑的多模态特征表示,然后作为输入传递给下游的DiT网络。采用标记连接(token concatenation)的方式,平衡对编辑指令的响应性与对细粒度图像细节的保留。这种方法比通道连接或额外的自注意力机制更有效。
  • 在训练过程中,联合优化连接器模块和下游的DiT,仅使用扩散损失进行训练,确保稳定训练而不依赖掩码损失技巧。(采用 Rectified Flow 方式)
  • 并且对 VLLM 输出的有效嵌入计算均值,将其作为 DiT 的引导。

实验

团队从互联网上收集了超过1K的用户编辑实例,构建了GEdit-Bench,包含606个真实用户编辑指令,覆盖11类任务。为确保隐私,所有图像经过去标识化处理。与其他基准(如EditBench和MagicBrush)相比,GEdit-Bench更贴近实际需求。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

疑问:本文仅在自己构建的测试集上评估,并缺乏消融实验验证架构设计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/82834.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Python在PyCharm中进行交通工程数据分析的完整流程,包括数据清洗、挖掘、关联、可视化和应用整合等各个阶段

交通工程领域数据分析流程 下面我将详细介绍使用Python在PyCharm中进行交通工程数据分析的完整流程,包括数据清洗、挖掘、关联、可视化和应用整合等各个阶段。 1. 数据准备与清洗 1.1 导入必要库 import pandas as pd import numpy as np import matplotlib.pyplot as plt…

《软件工程》第 2 章 -UML 与 RUP 统一过程

在软件工程领域,UML(统一建模语言)与 RUP(统一过程)是进行面向对象软件开发的重要工具和方法。接下来,我们将深入探讨第 2 章的内容,通过案例和代码,帮助大家理解和掌握相关知识。 …

Vue收集表单数据

在 Web 开发中,表单是用户与系统交互的重要方式。无论是注册、登录、提交评论还是其他操作,都需要通过表单获取用户输入的数据。Vue.js 提供了强大的响应式系统和指令,使得表单数据的收集变得简单而高效。本文将详细介绍如何在 Vue 中实现表单…

R基于多元线性回归模型实现汽车燃油效率预测及SHAP值解释项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后关注获取。 1.项目背景 在全球环保意识日益增强和技术进步的推动下,汽车燃油效率成为了汽车行业关注的核心指标…

解决Window10上IP映射重启失效的问题

问题 在实际网络搭建过程中,大家有可能会遇到在局域网范围内,在自己本机上搭建一个网站或者应用时,其他设备通过本机的IP地址无法访问的问题,这个问题可以通过设置IP映射来解决,但是通过netsh interface命令设置的IP映射&#xf…

一台手机怎样实现多IP上网?方法有多种

在数字时代,多IP上网已成为许多手机用户的刚需。本文将详细介绍如何通过不同技术手段实现手机多IP上网,帮助读者根据实际需求选择适合的解决方案。 一、为什么一台手机要实现多IP上网 手机实现多IP上网的典型场景包括: ①防止同一IP操作多个…

git子模块--常见操作

克隆仓库 标准化克隆流程 基本命令git clone <父仓库远程URL> [本地文件名] cd <本地仓库名> git submodule init # 初始化子模块配置 git submodule update # 拉取子模块内容一次性完成克隆和初始化流程 基本命令git clone --recurse-submodules <父仓库远…

ceph 剔除 osd

剔除 osd 参考官网文档 Removing OSDs (Manual) Removing the OSD 你得周期性地维护集群的子系统、或解决某个失败域的问题(如一机架)。如果你不想在停机维护 OSD 时让 CRUSH 自动重均衡,提前设置 noout ceph osd set nooutid=1# OSD 通常在从集群中移除之前处于 up in 在…

MySQL推出全新Hypergraph优化器,正式进军OLAP领域!

在刚刚过去的 MySQL Summit 2025 大会上&#xff0c;Oracle 发布了一个用于 MySQL 的全新 Hypergraph&#xff08;超图&#xff09;优化器&#xff0c;能够为复杂的多表查询生成更好的执行计划&#xff0c;从而优化查询性能。 这个功能目前只在 MySQL HeatWave 云数据库中提供&…

破能所,入不二

一、缘起&#xff1a;从“闻所闻尽”到性相不二 《楞严经》观世音菩萨耳根圆通法门的核心教义——“初于闻中&#xff0c;入流亡所&#xff1b;所入既寂&#xff0c;动静二相&#xff0c;了然不生。如是渐增&#xff0c;闻所闻尽”&#xff0c;揭示了从凡夫二元认知跃升至究竟…

网站每天几点更新,更新频率是否影响网站收录

1. 每天几点更新网站最合适&#xff1f;总怕时间选错影响收录&#xff1f; 刚开始搞网站的时候&#xff0c;是不是老纠结啥时候更新合适&#xff1f;早上刚上班&#xff1f;半夜没人的时候&#xff1f;选不对时间&#xff0c;总担心搜索引擎爬虫来了没抓到新内容&#xff0c;影…

使用workvisual对库卡机器人进行程序备份

1&#xff0c;将电脑网卡设置自动获取&#xff0c;用网线将电脑与库卡机器人控制柜上的网口连接 2&#xff0c;打开软件后&#xff0c;会出现项目打开对话框&#xff0c;点击浏览按钮&#xff0c;会出现机器人站项目 3&#xff0c;点击项目前面的➕&#xff0c;展开菜单&…

2025.5.22 Axure 基础与线框图制作学习笔记

一、Axure 基础 - 界面及相关了解 界面布局 工具栏 &#xff1a;位于软件上方&#xff0c;包含新建、打开、保存等常用文件操作按钮&#xff0c;以及撤销、重做、剪切、复制、粘贴等编辑功能按钮&#xff0c;方便快速执行相关操作。 元件面板 &#xff1a;在左侧&#xff0c;提…

Python训练打卡Day36

复习日&#xff1a; 回顾神经网络的相关信息 1. 梯度下降的思想 梯度下降的本质是一种迭代优化算法&#xff0c;用于寻找函数的极小值点&#xff08;比如损失函数的最小值&#xff09;其关键的要素如下 梯度&#xff1a;函数在某点变化率最大方向学习率&#xff1a;每一步的…

【Android】System分区应用自带库与原生库同名问题分析

System分区应用自带库与原生库同名问题分析 问题背景 某系统应用发生必现崩溃问题。崩溃log如下 0*-** **:**:**.** 66666 66666 E ***** aar error:: java.lang.UnsatisfiedLinkError: dlopen failed: cannot locate symbol "_TTT_TTT_TTT" referenced by &quo…

计算机网络中的单播、组播与广播

文章目录 前言一、单播&#xff08;Unicast&#xff09;1.1 定义与工作原理1.2 优点1.3 缺点1.4 典型应用场景 二、广播&#xff08;Broadcast&#xff09;2.1 定义与工作原理2.2 优点2.3 缺点2.4 典型应用场景 三、组播&#xff08;Multicast&#xff09;3.1 定义与工作原理3.…

ASP.NET MVC添加新控制器示例

ASP.NET MVC高效构建Web应用- 商品搜索 - 京东 控制器&#xff08;Controllers&#xff09;是一个协调视图和模型直接关系的特殊类。它响应用户输入&#xff0c;与模型进行对话&#xff0c;并决定呈现哪个视图&#xff08;如果有的话&#xff09;。在ASP.NET MVC中&#xff0c…

Escrcpy(安卓手机投屏软件) v1.29.6 中文绿色版

在数字设备日益普及的今天&#xff0c;用户对于设备的控制和管理需求也在不断增加。对于Android设备用户来说&#xff0c;Escrcpy这款强大的工具无疑是一个福音。它不仅提供了直观的图形化界面&#xff0c;让用户能够轻松显示和控制自己的Android设备&#xff0c;还以完全免费开…

Python爬虫实战:研究Goose框架相关技术

一、引言 随着互联网的迅速发展,网络上的信息量呈爆炸式增长。从海量的网页中提取有价值的信息成为一项重要的技术。网络爬虫作为一种自动获取网页内容的程序,在信息收集、数据挖掘、搜索引擎等领域有着广泛的应用。本文将详细介绍如何使用 Python 的 Goose 框架构建一个完整…

【Linux 学习计划】-- 冯诺依曼体系 | 操作系统的概念与定位,以及其如何管理软件

目录 冯诺依曼体系结构 操作系统是干什么的&#xff1f; 理解操作系统中的管理 对OS&#xff08;操作系统&#xff09;宏观、整体的分析 总结 结语 冯诺依曼体系结构 首先我们来看这样一张图&#xff0c;这就是大名鼎鼎的冯诺依曼体系 在日常生活中&#xff0c;所有的计…