【论文精读】2024 ECCV--MGLD-VSR现实世界视频超分辨率(RealWorld VSR)

文章目录

  • 一、摘要
  • 二、问题
  • 三、Method
    • 3.1 Latent Diffusion Model
    • 3.2 Motion-guided Diffusion Sampling
    • 3.3 Temporal-aware Decoder Fine-tuning
  • 四、实验设置
    • 4.1 训练阶段
    • 4.2 训练数据
  • 贡献总结

论文全称: Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution
代码路径: https://github.com/IanYeung/MGLD-VSR
更多RealWolrd VSR整理在 https://github.com/qianx77/Video_Super_Resolution_Ref

一、摘要

现实世界中的低分辨率(LR)视频存在多样化和复杂的退化现象,这对视频超分辨率(VSR)算法在高质量地再现其高分辨率(HR)对应物时提出了巨大的挑战。最近,扩散模型在图像还原任务中展现出了令人信服的生成真实细节的性能。然而,扩散过程具有随机性,使得控制还原图像内容变得困难。当将扩散模型应用于视频超分辨率(VSR)任务时,这个问题变得更加严重,因为时间一致性对视频的感知质量至关重要。
在本文中,我们通过利用预训练的潜在扩散模型的优势,提出了一种有效的实际应用视频超分辨率算法。为了确保相邻帧之间内容的一致性,我们利用低分辨率视频中的时间动态,通过优化潜在采样路径并引入运动引导损失,来指导扩散过程,从而确保生成的高分辨率视频保持一致且连续的视觉流。为了进一步减轻生成细节的间断性,我们在解码器中插入了时间模块,并使用一种创新的序列导向损失对其进行微调。所提出的基于运动引导潜在扩散(MGLD)的超分辨率算法在真实世界的超分辨率基准数据集上实现了显著优于现有技术的感知质量,验证了所提模型设计和训练策略的有效性。代码和模型可在 https://github.com/IanYeung/MGLD-VSR 获取。

二、问题

1、CNN Transformer架构表现不好
2、diffusion模型时序细节稳定性差

三、Method

图片

3.1 Latent Diffusion Model

介绍下LDM基本过程

3.2 Motion-guided Diffusion Sampling

在采样过程中引入了一种创新的运动引导模块,以测量跨帧的潜在特征的变形误差。
1、计算光流(前向和反向),下采样光流图去适应latent feature的尺寸
2、warp latent feature到相邻帧,然后计算两个方向上的累计误差
图片
3、计算occlusion区域,增加一个mask,仅这些位置提供梯度
图片

3.3 Temporal-aware Decoder Fine-tuning

latent的稳定性得到提升了,但是毕竟latent尺度是x8以下的,放大后可能又不稳定了,所以VAE-Dec也需要微调下
1、如图2所示,其中时序方面(temporal convs)的卷积是 1D convolutions(计算成本小)
2、从encoder通过CFW模块引入编码器特征,实现保真的效果
3、训练时候冻结原始空间卷积spatial convs
4、ℓ1 loss and perceptual loss、GAN-loss、frame difference loss、结构加权一致性损失 Lswc (structure weighted consistency loss)
图片
其中w=1+wS,代表着边缘位置,这个损失看起来是为了让前后帧的特征对齐
总的loss
图片

四、实验设置

4.1 训练阶段

两个训练阶段
1、finetune 去噪U-Net,权重使用sd2.1初始化,插入1D temporal convolution ,原始U-Net权重冻结,仅训练条件 和 时序模块
条件模块:包括小的时间感知的encoder,负责编码LR,然后注入去噪U-Net (使用SFT模块注入)
时序模块 :每个卷积块后面的1D temporal convolution
batch size设置24,序列长度设置6,latent尺寸设置64x64
2、首先生成干净的latent 序列,然后finetune 时间感知序列decoder (使用LR序列、生成的latent序列、HR序列)
这个阶段固定的VAE的decoder,然后插值时序模块和CFW模块来训练
batch size 设置4,序列长度设置5,图像尺寸设置512x512

4.2 训练数据

GT: REDS
LQ: RealBasicVSR的降质

贡献总结

1、提出了一种基于运动引导损失的扩散采样过程,使得输入帧的时间动态可以用于生成时间一致的潜在特征。
2、提出了一种时间感知序列解码器,以及两个面向序列的损失,以进一步增强生成视频的连续性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/83086.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初学c语言21(文件操作)

一.为什么使用文件 之前我们写的程序的数据都是存储到内存里面的,当程序结束时,内存回收,数据丢失, 再次运行程序时,就看不到上次程序的数据,如果要程序的数据一直保存得使用文件 二.文件 文件一般可以…

历年厦门大学计算机保研上机真题

2025厦门大学计算机保研上机真题 2024厦门大学计算机保研上机真题 2023厦门大学计算机保研上机真题 在线测评链接:https://pgcode.cn/school 数字变换过程的最大值与步数 题目描述 输入一个数字 n n n,如果 n n n 是偶数就将该偶数除以 2 2 2&…

MySql--定义表存储引擎、字符集和排序规则

示例: CREATE TABLE users (id INT PRIMARY KEY,name VARCHAR(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci,email VARCHAR(100) ) ENGINEInnoDB DEFAULT CHARSETutf8mb4 COLLATEutf8mb4_0900_ai_ci;注意事项: 字符集和排序规则可以按列覆盖表…

深耕数字化赛道,联众优车以创新风控体系构筑汽车金融护城河

近年来,在汽车金融市场规模持续扩大的行业背景下,企业风险管理能力已成为决定市场竞争格局的关键要素。面对快速扩张的市场需求,银保监会2024年发布的《汽车金融公司监管评级办法》明确要求行业强化风控能力建设,央行《金融科技发…

第十九章 正则表达式

第十九章 正则表达式 文本型数据在所有的类UNIX系统(如 Linux)中会扮演着重要角色,在完全领会这些工具的全部特征之前,要先了解一下工具最为复杂的用法和相关技术:正则表达式。 什么是正则表达式 简单地说,正则表达式是一种用于…

内存监控方法与要点详解

引言 在软件性能测试领域,内存管理是评估系统稳定性和性能的关键指标之一。作为软件测试工程师,我们经常遇到因内存泄漏、内存溢出等问题导致的系统崩溃或性能下降。本文将深入探讨性能测试中内存监控的方法和要点,帮助测试团队更有效地识别…

56、Ocelot 概述

Ocelot 是一个基于 .NET Core 开发的开源 API 网关,主要用于微服务架构中,为多个后端服务提供统一的访问入口。它通过集中化管理请求路由、认证、限流、负载均衡等功能,简化了客户端与后端服务之间的交互,同时增强了系统的安全性和…

如何将多张图组合到一张图里同时保留高的分辨率(用PPT+AdobeAcrobat)

文章目录 一、用PPT排版得到一页排布了很多图片的PPT二、用AdobeAcrobat打开pdf文件三、最后得到的图片 一、用PPT排版得到一页排布了很多图片的PPT 步骤如下 ①将幻灯片大小的长设置为17.2,宽根据图像多少进行调整,我这里是10 幻灯片大小的长设置步骤&…

【Web应用】若依框架:基础篇12 项目结构

文章目录 ⭐前言⭐一、课程讲解🌟1、寻找合适的对象✨1) ⭐二、怎样选择设计模式?🌟1、寻找合适的对象✨1) ⭐三、怎样使用设计模式?🌟1、寻找合适的对象✨1) ⭐总结 标题详情作者JosieBook头衔CSDN博客专家资格、阿里…

SolidWorks 文件打开时电脑卡顿问题分析与解决

最近遇到一个问题就是我点击solid work的文件的时候会将电脑卡住然后电脑开始飞速的加载内存,鼠标移动很卡顿 解决办法: 1.找到资源管理器 当遇到这种情况时,可以尝试通过资源管理器来解决问题。首先,找到任务管理器&#xff08…

更新密码--二阶注入攻击的原理

1.原理知识: 二阶SQL注入攻击(Second-Order SQL Injection)原理详解 一、基本概念 二阶注入是一种"存储型"SQL注入,攻击流程分为两个阶段: ​​首次输入​​:攻击者将恶意SQL片段存入数据库​…

在 WSL Ubuntu-24.04 上安装 Nacos 2.5.1 并使用 MySQL 数据库

在微服务架构中,Nacos 是一个非常重要的服务发现和配置管理工具。本文将详细介绍如何在 WSL(Windows Subsystem for Linux)中的 Ubuntu-24.04 系统上安装 Nacos 2.5.1,并将其配置为使用 MySQL 数据库进行数据存储。我们将使用 roo…

2.qml使用c++

目录 1.概述2.注册方式3. 分类①枚举类②工具类③数据类④资源类②视图类 1.概述 qml是用来干嘛的? 当然是提高UI开发效率的 为什么要混合C? 因为qml无法处理密集型数据逻辑 而加入c则兼顾了性能 达到11>2 总结就是 qml 开发UI, C 实现逻辑 而js的用…

位置规划模式和周期同步位置模式区别

专业方向: 伺服电机位置控制模式(电气自动化) 标题解释 位置规划模式(Profile Position Mode,PP)和周期同步位置模式(Cyclic Synchronous Position Mode,CSP)区别。 常规…

C# ToString格式说明符

货币 "C"或"c" //C Console.WriteLine(666.ToString("C"));//¥666.00//C数字 表示保留几位小数精度 Console.WriteLine(666.ToString("C1"));//¥666.0 Console.WriteLine(666.ToString("C3"));//&…

基本数据指针的解读-C++

1、引言 笔者认为对于学习指针要弄清楚如下问题基本可以应付大部分的场景: ① 指针是什么? ② 指针的类型是什么? ③ 指针指向的类型是什么? ④ 指针指向了哪里? 2、如何使用指针 使用时的步骤如下: ① …

【Elasticsearch】suggest_mode

suggest_mode 是 Elasticsearch 中 term suggester 和 phrase suggester 的一个参数,用于控制建议的生成方式。它有以下三种模式: 1. missing:默认值。仅对索引中不存在的词项提供建议。如果输入的词已经在索引中存在,则不会生成建…

九、【前后端联调篇】Vue3 + Axios 异步通信实战

九、【前后端联调篇】Vue3 Axios 异步通信实战 前言准备工作第一步:安装 Axios第二步:封装 Axios 实例第三步:创建 API 服务模块第四步:在组件中调用 API第五步:测试前后端联调 总结 前言 在 Web 开发中,…

【计算机网络】传输层TCP协议——协议段格式、三次握手四次挥手、超时重传、滑动窗口、流量控制、

🔥个人主页🔥:孤寂大仙V 🌈收录专栏🌈:计算机网络 🌹往期回顾🌹: 【计算机网络】传输层UDP协议 🔖流水不争,争的是滔滔不息 一、TCP协议 UDP&…

php:5.6-apache Docker镜像中安装 gd mysqli 库 【亲测可用】

Dockerfile 代码如下: FROM php:5.6-apache# 使用Debian归档源 RUN echo "deb http://archive.debian.org/debian stretch main contrib non-free" > /etc/apt/sources.list && \echo "deb http://archive.debian.org/debian-security s…