[2025CVPR]AdcSR:一种高效实世界图像超分辨率的对抗扩散压缩方法

目录

1. 背景与挑战

2. AdcSR模型概述

2.1 模型架构

2.2 训练策略

3. 公式与原理

4. 创新点

5. 实验与结果

5.1 实验设置

5.2 结果对比

5.3 消融实验

6. 结论


在计算机视觉领域,图像超分辨率(Image Super-Resolution, ISR)一直是一个重要的研究方向。其目标是从低分辨率(Low-Resolution, LR)图像中重建出高分辨率(High-Resolution, HR)图像。然而,现实世界中的图像退化过程复杂且未知,这使得实世界图像超分辨率(Real-World Image Super-Resolution, Real-ISR)成为一个更具挑战性的任务。本文将详细介绍一种名为AdcSR的新型Real-ISR方法,该方法通过对抗扩散压缩(Adversarial Diffusion Compression, ADC)框架,显著提高了模型的效率和性能。

1. 背景与挑战

传统的ISR方法通常假设LR图像是HR图像的双三次下采样版本,但这种假设在现实世界中往往不成立。为了应对复杂的退化过程,研究者们提出了基于随机退化操作和高阶退化过程的Real-ISR方法。这些方法在合成数据上表现良好,但在实际应用中仍面临计算成本高、推理速度慢等问题。

近年来,基于扩散模型(Diffusion Models)的方法如Stable Diffusion(SD)在图像生成任务中表现出色。然而,这些方法通常需要多步推理,计算成本高昂,难以在实际部署中应用。为了解决这一问题,研究者们提出了多种一步推理的扩散模型,如OSEDiff和S3Diff。尽管这些方法在推理速度上有所提升,但它们仍然依赖于大规模的预训练SD模型,计算成本和参数量仍然较高。

2. AdcSR模型概述

AdcSR是一种基于对抗扩散压缩(ADC)框架的新型Real-ISR方法。其核心思想是通过结构化压缩(模块移除和剪枝)和对抗蒸馏(知识蒸馏与对抗损失)来简化基于一步扩散网络的Real-ISR模型,从而在保持生成能力的同时显著提高效率。

2.1 模型架构

AdcSR模型通过移除不必要的模块(如VAE编码器、提示提取器、文本编码器等)和剪枝剩余的可压缩模块(如去噪UNet和VAE解码器)来实现结构化压缩。具体来说,AdcSR模型包括以下三个模块:

  1. PixelUnshuffle层​:将LR输入图像的像素重新排列到通道维度,以准备输入到去噪UNet。
  2. 剪枝后的SD UNet​:处理重新排列的LR图像,保留原始深度,但不包含文本编码器、CA层和时间嵌入层。
  3. 剪枝后的VAE解码器​:接收UNet的高维特征并生成超分辨率图像。

2.2 训练策略

AdcSR模型采用两阶段训练策略:

  1. 预训练剪枝后的VAE解码器​:在OpenImage和LAION-Face数据集上预训练剪枝后的VAE解码器,以恢复其解码图像的能力。
  2. 对抗蒸馏​:在特征空间中对齐学生模型(AdcSR)和教师模型(OSEDiff)的特征,以补偿性能损失。

3. 公式与原理

AdcSR模型的核心公式如下:

  1. LR图像编码​:

    zLR​=EOSEDiff​(xLR​),c=C(xLR​)
  2. 一步扩散去噪​:

    z^HR​=[zLR​−1−αˉT​​ϵOSEDiff​(zLR​;T,c)]/αˉT​​
  3. 解码生成HR图像​:

    x^HR​=DSD​(z^HR​)

在AdcSR中,VAE编码器被移除,LR图像直接通过PixelUnshuffle操作输入到UNet。去噪UNet和VAE解码器通过剪枝和预训练来优化。

4. 创新点

AdcSR模型的主要创新点包括:

  1. 结构化压缩​:通过移除不必要的模块和剪枝剩余的可压缩模块,显著减少了模型的参数量和计算成本。
  2. 对抗蒸馏​:在特征空间中对齐学生模型和教师模型的特征,以补偿性能损失,保持生成能力。
  3. 高效推理​:通过上述优化,AdcSR模型在推理速度、计算成本和参数量上均显著优于现有的基于一步扩散的Real-ISR方法。

5. 实验与结果

5.1 实验设置

实验在DIV2K-Val、RealSR和DRealSR数据集上进行,评估指标包括PSNR、SSIM、LPIPS、DISTS、NIQE、MUSIQ、MANIQA和CLIPIQA。

5.2 结果对比

如表1所示,AdcSR在多个指标上表现优异,特别是在PSNR、SSIM、LPIPS和DISTS等指标上优于现有的基于一步扩散的Real-ISR方法。

如图2所示,AdcSR在视觉质量和模型效率上均表现出色,提供了最高的推理速度、最低的计算成本和第二少的参数量。

5.3 消融实验

消融实验进一步验证了AdcSR模型中各个模块的有效性。例如,移除VAE编码器和优化UNet-VAE解码器连接的实验结果如表2和表3所示。

如图3所示,AdcSR的训练和推理过程清晰地展示了其结构化压缩和对抗蒸馏的优势。

6. 结论

AdcSR通过对抗扩散压缩框架,显著提高了基于一步扩散的Real-ISR模型的效率和性能。其结构化压缩和对抗蒸馏策略在保持生成能力的同时,显著减少了模型的参数量和计算成本。实验结果表明,AdcSR在多个指标上优于现有的基于一步扩散的Real-ISR方法,提供了最高的推理速度和最低的计算成本。

AdcSR的成功为实世界图像超分辨率任务提供了一种高效、可靠的解决方案,具有广泛的应用前景。未来,研究者可以进一步探索AdcSR在其他SD-based方法中的应用,并集成更多的生成先验,以进一步提升Real-ISR的性能。

论文地址:https://openaccess.thecvf.com/content/CVPR2025/papers/Chen_Adversarial_Diffusion_Compression_for_Real-World_Image_Super-Resolution_CVPR_2025_paper.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/85145.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/85145.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go 语言中的字符串基本操作

这篇文章已经放到腾讯智能工作台的知识库啦,链接在这里:ima.copilot-Go 入门到入土。要是你有啥不懂的地方,就去知识库找 AI 聊一聊吧。 本篇将详细讲解 Go 语言中与字符串相关的操作。 1、rune 和 字符串长度 1、Go 函数语法约定 在开始…

数学建模会议笔记

看似优化模型 建立整数规划模型 用优化软件、启发式方法、精确方法求解 建立图论和组合优化模型用组合优化方法、启发式方法求解 建立博弈论模型 数据统计分析与可视化- 数据拟合、参数估计、插值、数据的标准化、去伪补全相关度分析、分类、聚类等 最优化理论和方法 线性规划…

学习昇腾开发的六天--ACL应用开发之运行第一个实例

1、下载一个实例,运行一个图像分类实例(环境:Ubuntu22.04,硬件:昇腾310B1,加速模块:atlas 200i a2) samples: CANN Samples - Gitee.com 目录结构如下: ├── data │…

可灵AI-快手公司自主研发的一款AI视频与图像生成工具

可灵AI是由快手公司自主研发的一款AI视频与图像生成工具,于2024年6月正式推出。以下是对其的详细介绍: 核心功能 AI视频生成: 文生视频:输入文字描述,AI可自动生成匹配的视频片段。图生视频:上传图片&…

创客匠人解析:存量时代创始人 IP 打造与免费流量池策略

在存量竞争的商业环境中,企业如何突破增长瓶颈?创客匠人结合新潮传媒创始人张继学的实战洞察,揭示 “品牌 IP” 双轮驱动下的免费流量池构建逻辑,为知识变现与创始人 IP 打造提供新思路。 一、存量时代的流量革命:从…

提升语义搜索效率:LangChain 与 Milvus 的混合搜索实战

我从不幻想人生能够毫无波折,但我期望遭遇困境之际,自身能够成为它的克星。 概述 LangChain与Milvus的结合构建了一套高效的语义搜索系统。LangChain负责处理多模态数据(如文本、PDF等)的嵌入生成与任务编排,Milvus作…

MySQL配置简单优化与读写测试

测试方法 先使用sysbench对默认配置的MySQL单节点进行压测,单表数据量为100万,数据库总数据量为2000万,每次压测300秒。 sysbench --db-drivermysql --time300 --threads10 --report-interval1 \--mysql-host192.168.0.10 --mysql-port3306…

猎板深耕透明 PCB,解锁电子设计新边界

在电子技术快速迭代的当下,猎板始终关注行业前沿,透明 PCB 作为极具创新性的技术,正在改变电子设备的设计与应用格局。​ 从传统的绿色、棕色 PCB 到如今的透明 PCB,其突破在于特殊基材与导电材料的运用,实现 85%-92%…

FLAML:快速轻量级自动机器学习框架

概述 FLAML(Fast and Lightweight AutoML)是微软开发的一个高效的自动机器学习(AutoML)框架。它专注于在有限的计算资源和时间约束下,自动化机器学习管道的构建过程,包括特征工程、模型选择、超参数调优等…

Github 以及 Docker的 wsl --list --online无法访问问题

修改电脑DNS 腾讯 DNS IP:119.29.29.29 备用:182.254.116.116 阿里DNS IP:223.5.5.5 223.6.6.6 百度DNS IP:180.76.76.76 谷歌DNS IP:8.8.8.8

Go 语言中的变量和常量

这篇文章已经放到腾讯智能工作台的知识库啦,链接在这里:ima.copilot-Go 入门到入土。要是你有啥不懂的地方,就去知识库找 AI 聊一聊吧。 1、变量的声明与使用 我们来探讨编程语言中最核心的概念之一:变量。 1、静态语言中的变量…

破局传统订货!云徙渠道订货系统赋能企业数字化渠道升级

在数字化浪潮的推动下,传统经销商订货模式面临着诸多挑战,如信息孤岛、系统崩溃、移动化不足等问题。云徙渠道订货系统凭借其创新的数字化架构和强大的功能模块,正在成为企业实现渠道数字化转型的重要工具。 系统功能与创新 云徙渠道订货系统…

SQL关键字三分钟入门:UNION 与 UNION ALL —— 数据合并全攻略

在处理数据时,有时我们需要将来自不同表或同一表的不同查询结果合并在一起。例如: 合并两个部门的员工名单;将多个地区的销售数据汇总;显示某段时间内所有新增和修改的记录。 这时候,我们就需要用到 SQL 中非常强大的…

SNMPv3 的安全命名空间详解

1. 安全命名空间的本质 安全命名空间是 SNMPv3 的核心安全机制,通过 上下文(Context) 实现: #mermaid-svg-6cV9146nTFF1zCMJ {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#merma…

【嵌入式硬件实例】-555定时器实现烟雾和易燃气体泄露检测

555定时器实现烟雾和易燃气体泄露检测 文章目录 555定时器实现烟雾和易燃气体泄露检测1、555定时器介绍2、MQ-2 气体/烟雾传感器模块介绍3、硬件准备与接线在本文中,我们将使用555定时器和MQ-2气体传感器构建一个气体泄漏检测和报警系统。它在煤气泄漏期间用作家庭安全警报器。…

【机器人】DualMap 具身导航 | 动态场景 开放词汇语义建图 导航系统

DualMap 是一个在线的开放词汇语义映射系统,使得机器人能够通过自然语言查询在动态变化的环境中理解和导航 双地图导航,结合全局抽象地图进行高层次候选选择,以及局部具体地图进行精确目标定位,有效管理和更新环境中的动态变化。…

【Fifty Project - D37】

fifty project算是失败了一半了 成功的那一半在于一定程度上拯救了我的作息和健康,两个月前入职体检的肝有点不健康,昨天复查发现全都回到了健康范围!尿酸也在正常范围!就是体重还是没减下来hhh 失败的一半在于自己很差劲的规划能…

解码危险品物流背后的“隐形防线”

当急救药品跨越千里送达医院,当新能源电池准时抵达生产线,当化工原料安全运往工厂……这些与日常生活息息相关的场景背后,有一群人始终在和时间赛跑,与风险博弈。他们不是超级英雄,而是危险品物流从业者——一个鲜少被…

Flutter Melos在外包团队协作中的弊端与应对策略

引言 在大型Flutter项目开发中,Melos作为一款优秀的Monorepo管理工具,能够有效协调多包项目的开发流程。然而,当项目涉及外包团队协作时,Melos的使用会面临一系列独特的挑战。本文将深入分析Flutter Melos在外包团队协作环境中的…

<selectKey> 中的order 属性

在 MyBatis 中&#xff0c;<selectKey> 标签的 order 属性用于指定生成主键值的 SQL 语句执行时机。 除了 AFTER&#xff0c;MyBatis 还支持另一种模式&#xff1a;BEFORE&#xff0c; 它们有明确的使用场景和区别&#xff1a; order"AFTER" 适用数据库&#x…