图像擦除论文-2:SmartEraser、Erase Diffusion、OmniEraser

图像生成模型应用系列——图像擦除:
图像擦除论文-1:PixelHacker、PowerPanint等
图像擦除论文-2:擦除类型数据集构建(1)

Erase Diffusion

Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways
https://github.com/longtaojiang/SmartEraser
CVPR-2025

1、模型结构

论文出发点主要为:1、动态图像组合:区别常规的图像去除实验target image就是我们的去除内容之后的图片,在该文中将其替换为: x t m i x = ( 1 − λ t ) x 0 o r i + λ t x 0 o b j x_t^{mix} = (1-\lambda_t)x_0^{ori}+ \lambda_t x_0^{obj} xtmix=(1λt)x0ori+λtx0obj 也就是随着解噪过程(t逐渐减小)图片中所添加的实体( x 0 o b j x^{obj}_0 x0obj)所占的权重越来越小,同时将 input image也替换为动态的过程: x t m i n = α t x t m i n + 1 − α t ϵ x_t^{min}=\sqrt{\alpha_t}x_t^{min}+ \sqrt{1- \alpha_t}\epsilon xtmin=αt xtmin+1αt ϵ;2、改变模型的预测过程:上面两部分公式处理之后那么得到的输入图像是一个“图像链”输出图像也是一个“图像链”,那么模型需要做的就是将对应“图像链”之间的loss进行计算。

3、改进注意力计算方式:这部分比较容易理解在计算注意力过程中将mask加入到计算也就是: Q K T ⨀ M a s k QK^T\bigodot Mask QKTMask

SmartEraser

SmartEraser: Remove Anything from Images using Masked-Region Guidance
CVPR-2025

1、数据集构建

合成数据集构建思路上使用思路是:实体过滤背景检测而后将两部分进行组合。Step-1:实体过滤:直接通过语义分割模型(如SAM等)分割出实体之后,通过CLIP计算实体的score并且过滤掉过大/小的分割实体(保留5%-95%)进而获得需要粘贴的实体;Step-2:过滤背景图片:直接通过计算分辨率等从COCONut 和SAM-1B数据集中挑选出合适图片背景;Step-3:图片组合:首先将实体和背景图像中相同实体大小保持一致,而后通过计算我分割实体 c 1 c_1 c1 以及背景中的实体 c i c_i ci之间的IoU: R 1 R_1 R1,以及保证需要粘贴实体在整个背景中的位置(保证不超出背景图片): R 2 R_2 R2而后取两部分交集得到图像应该插入的合理位置。最后通过 alpha blending将两部分图像(实体+背景)进行组合。

2、模型结构测试效果

论文主要就是将模型的输入进行改进:将模型图像输入由 [ m a s k , i m a g e ⨀ ( 1 − m a s k ) ] [mask, image\bigodot (1-mask)] [mask,image(1mask)] 改为 [ m a s k , i m a g e ] [mask, image] [mask,image],除此之外将DF模型的condition改进(将图像编码嵌入到文本编码中): [ CLIP-TextEncoder(text) , MLP ( Image ⨀ Mask ) ] [\text{CLIP-TextEncoder(text)}, \text{MLP}(\text{Image}\bigodot \text{Mask})] [CLIP-TextEncoder(text),MLP(ImageMask)]。除此之外就是将mask由“规则”(实体分割是规则的)变为“不规则”(将实体分割mask进行额外处理如膨胀处理等)最后测试效果是:

ME:将mask变不规则;RG:改变模型输入;VG:将图像编码嵌入到clip文本编码中

微调测试效果
55_000000138891.jpg
sa_324589.jpg
sa_326708.jpg
sa_324873.jpg
sa_5278781.jpg

值得注意的是,在其合成的数据里面,合成得到结果很粗糙(感觉就像是随机贴图),因此感觉数据可用性不高
image.png
image.png

OmniEraser

https://pris-cv.github.io/Omnieraser/

1、数据集构建

通过视频来获取(mask-image)数据集,具体操作流程如下:

image.png

首先获取一段视频 V \mathbf{V} V 通过 混合高斯算法(MOG)去检查视频中移动的物体以及静止的物体这样一来就可以得到两部分内容:Background和Foreground而后通过计算两部分之间的MSE( M S E ( V i f g , V j b g ) MSE(V_i^{fg}, V_j^{bg}) MSE(Vifg,Vjbg))就可以得到source-image和 target-image对。对于mask内容直接通过 GroundDINO+SAM2 算法来构建mask这样一来就可以得到:foreground-image,mask,background-image。模型算法这是直接去微调 FLUX.1-dev

2、模型结构测试效果

image.png

实际测试效果(使用prompt为:'There is nothing here.'

原图Mask结果测试细节
sa_324952.jpgsa_324952-0.jpgsa_324952.jpg
sa_325886.jpgsa_325886-1.jpgsa_325886.jpg
sa_324501.jpgsa_324501-2.jpgsa_324501.jpg
sa_324930.jpgsa_324930-1.jpgsa_324930.jpgimage.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/87150.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/87150.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

九识无人车陕西运营中心展厅启幕 打造智能城配物流新标杆

7月1日,九识无人车陕西运营中心展厅正式开业,全国业务版图再添重要一子。这座展厅是九识在陕西省的首家展厅,由九识第一位正式提车的客户、首位代理商伙伴孙朋奇先生打造。展厅集产品展示与技术体验于一体,成为西北地区城配领域自…

AI智能体|扣子(Coze)搭建【沉浸式历史故事解说视频】工作流

主包讲解历史对我们的好处,纯个人观点! 这个世界是存在一些规律的,很多东西并不能够通过自己的聪明去创新,去改变的。 无论你怎么样创新,你都会回到哪个规律中去,比如很多人做一些商业模式的创新&#xff0…

Softhub软件下载站实战开发(十):实现图片视频上传下载接口

文章目录 Softhub软件下载站实战开发(十):实现图片视频上传下载接口 🖼️🎥系统架构图核心功能设计 🛠️1. 文件上传流程2. 关键技术实现2.1 雪花算法2.2 文件校验机制 ✅2.3 文件去重机制 🔍2.…

[JS逆向] 喜马拉雅登录案例 -- 补环境

博客配套代码发布于github:喜马拉雅登录 (欢迎顺手Star一下⭐) 相关知识点:webpack 补环境 相关爬虫专栏:JS逆向爬虫实战 爬虫知识点合集 爬虫实战案例 逆向知识点合集 此案例目标为逆向成功对应的参数&#xff0c…

大语言模型推理系统综述

摘要 近年来,随着 ChatGPT 等服务推动大语言模型(LLM)的快速普及,一批专门面向 LLM 推理的系统相继涌现,如 vLLM、SGLang、Mooncake 和 DeepFlow。这些系统设计工作的核心动因是 LLM 请求处理过程中所特有的自回归特性…

用Firecrawl轻松获取网站数据,提升AI应用的效率!

🔥 Firecrawl:助力AI应用的强大工具! 在数字化信息爆炸的时代,如何高效地从海量网页中提取有用数据变得尤其重要。Firecrawl的问世,为我们揭开了一种便捷的方法来应对这一挑战。它不仅能够将整个网站的数据转化为适用…

【王阳明代数讲义】谷歌编程智能体Gemini CLI 使用指南、架构详解与核心框架分析

Gemini CLI 使用指南、架构详解与核心框架分析 Gemini CLI 使用指南、架构详解与核心框架分析Gemini CLI 使用指南Gemini CLI 架构详解Gemini CLI 核心框架总结 Gemini CLI 使用指南、架构详解与核心框架分析 Gemini CLI 使用指南 1. 安装与配置 环境要求: Node.…

camera调试:安卓添加xml注册

对接安卓的平台时,需要注册对应的camera设备,供安卓标准api进行操作,rk的平台需要在HAL层配置camera3_profiles.xml文件,适配驱动的信息,进行注册camera设备。该xml对应的内容很多,很多CTS测试问题都是该文…

使用 Ansys Discovery 为初学者准备几何结构

介绍 设计几何体通常会包含一些特征,使其无法直接导入我们的仿真工具,例如 Ansys Mechanical、LS-DYNA、Fluent 等。有些干扰或错位虽然适合制造,但在我们的仿真工具中却会造成问题。有时,一些小特征(例如孔或圆角&am…

推客系统全栈开发指南:从架构设计到商业化落地

一、推客系统概述 推客系统(TuiKe System)是一种结合社交网络与内容分发的创新型平台,旨在通过用户间的相互推荐机制实现内容的高效传播。这类系统通常包含用户关系管理、内容发布、智能推荐、数据分析等核心模块,广泛应用于电商…

大数据开发实战:如何做企业级的数据服务产品

1.背景 数据服务通常以解决方案的形式进行组织,面向一个应用场景的所有数据需求或数据内容可以通过一个解决方案进行封装,统一对外服务。一个数据需求或数据接口以一个数据服务实例的形式存在于解决方案之下。 下游消费方可以通过统一API进行数据消费&…

基于IndexTTS的零样本语音合成

IndexTTS 项目采用模块化设计,将 BPE 文本编码、GPT 单元预测、dVAE 语音特征抽取和 BigVGAN 音频生成串联为完整的语音合成流程。系统通过统一的配置文件和模型目录规范,实现高效的文本到语音转换,支持命令行与 Web 界面双模式操作&#xff…

基于go-zero的短链生成系统

go-zero框架 gozero(又称go-zero)是一款由知名开发者kevwan设计的Golang微服务框架,专注于高性能、低延迟和易用性。其核心目标是简化分布式系统的开发,提供开箱即用的工具链,涵盖API网关、RPC服务、缓存管理、数据库…

Linux-修改线上MariaDB服务端口号

准备工作(很重要!!!): 提前做好Linux服务器快照 提前做好数据库数据备份 1. 修改配置文件 首先,我们需要找到MariaDB的配置文件。通常情况下,这个文件位于以下位置:…

Spring Cloud 微服务(负载均衡策略深度解析)

📌 摘要 在微服务架构中,负载均衡是实现高可用、高性能服务调用的关键机制之一。Spring Cloud 提供了基于客户端的负载均衡组件 Ribbon,结合 Feign 和 OpenFeign,实现了服务间的智能路由与流量分配。 本文将深入讲解 Spring Clo…

HTML/CSS基础

1.html:超文本标记语言。它是一种标识性的语言,非编程语言,不能使用逻辑运算。通过标签将网络上的文本格式进行统一,使用分散网络资源链接为一个逻辑整体,属于标记语言。 超文本:就是指页面内可以包含图片&#xff0…

C# 事件驱动编程的核心:深度解析发布者_订阅者模式

适用场景:GUI交互、消息队列、微服务通信等需要解耦事件生产与消费的系统 🧩 模式核心组件解析 发布者(Publisher) 作用:定义事件并管理订阅者列表关键行为: 提供和-运算符注册/注销订阅者通过Invoke()方…

华为云Flexus+DeepSeek征文 | 从零开始搭建Dify-LLM应用开发平台:华为云全流程单机部署实战教程

华为云FlexusDeepSeek征文 | 从零开始搭建Dify-LLM应用开发平台:华为云全流程单机部署实战教程 前言一、华为云Dify-LLM平台介绍1. Dify-LLM解决方案简介2. Dify-LLM解决方案地址3. Dify-LLM单机架构介绍4. 预估成本说明 二、华为云Maas平台介绍1. 华为云ModelArts …

oracle集合三嵌套表(Nested Table)学习

嵌套表 嵌套表(Nested Table)是Oracle中的一种集合数据类型,它允许在表中存储多值属性,类似于在表中嵌套另一个表。 嵌套表具有以下特点: 是Oracle对象关系特性的一部分 可以看作是一维数组,没有最大元素数量限制 存储在单独…

Python学习之——单例模式

Python学习之——单例模式 参考1 利用__metaclass__实现单例super的用法class Singleton(type)元类 2 重载__new__方法实现单例模式3 利用装饰器实现单例考虑一个类如果继承一个单例类的问题 参考 python之metaclasssingleton(一) python之metaclasssin…