[2025CVPR-图象超分辨方向]DORNet:面向退化的正则化网络,用于盲深度超分辨率

1. ​问题背景与挑战

盲深度超分辨率(Blind Depth Super-Resolution, DSR)的目标是从低分辨率(LR)深度图中恢复高分辨率(HR)深度图,但现有方法在真实场景下面临显著挑战:

  • 已知降级假设的局限性​:当前RGB引导的DSR方法(如双三次下采样)在合成数据集上表现良好,但真实世界深度数据常受传感器限制和复杂成像环境(如低反射表面、光照变化)影响,导致非传统且未知的降级(例如结构失真和模糊)。这种降级会破坏深度图与RGB图的结构一致性,显著降低模型性能。
  • 真实与合成数据的差异​:真实世界LR深度(如ToF相机捕获)相比合成LR深度(如双三次下采样)表现出更严重的结构失真和分布差异(如图2所示),使恢复任务更复杂。传统方法无法适应这种未知降级,需新方法建模隐式降级表示。

 

现有方法的不足​:如图1所示,传统方法直接融合RGB与对齐的LR深度,忽略了降级建模;而DORNet专注于学习LR深度的降级表示,以提供针对性恢复指导。 

 

2. ​DORNet框架概述

DORNet是一个新颖的盲DSR框架,核心思想是通过隐式降级表示自适应处理真实场景的未知降级。其整体架构包括:

  • 输入与输出​:给定LR深度图 Dlr​∈Rh×w×1 和RGB图像 I∈Rsh×sw×3(s 为上采样因子),输出恢复的HR深度图 Dhr​∈Rsh×sw×1。
  • 关键模块​:
    • 自我监督降级学习策略(Self-Supervised Degradation Learning)​​:建模LR深度的降级表示,无需降级标签。
    • 降级导向融合方案(Degradation-Oriented Fusion Scheme)​​:基于学到的降级先验,选择性融合RGB与深度特征。
  • 轻量版设计​:DORNet-T通过减少卷积通道数(降至原始3/8)实现高效推理,同时保持相同架构。

 

3. ​核心技术细节

a. ​自我监督降级学习策略
  • 降级表示生成​:输入上采样LR深度 Dup​,通过残差块 frb​ 和降级编码器 Ed​ 生成降级表示 D~ 和 D:

 

路由选择机制​:受Mixture-of-Experts启发,设计路由编码器 Er​ 动态分配降级表示至多尺度降级核生成器: 

如图4所示,学到的降级表示 D~ 能精准识别退化区域(如梯度直方图对比)。
 

b. ​降级导向融合方案
  • DOFT模块(Degradation-Oriented Feature Transformation)​​:核心组件,递归执行多次(默认5次),选择性传播RGB特征至深度特征:
    • RGB特征对齐​:使用 D~ 生成偏移 Δp 和调制标量 Δm,结合 D 生成权重 w,通过可变形卷积(DCN)对齐RGB特征 Frt−1​:

 

选择性传播​:编码 D~ 为亲和系数 σ,融合 Frd​ 与深度特征 Fdt−1​:Fdt​=fc​([Fdt−1​,σ⊗fc​(Frd​)+Frd​]). 

 

4. ​实验结果与性能

a. ​数据集与设置
  • 数据集​:
    • 真实世界​:RGB-D-D(2,215训练/405测试)、TOFDSR(10K训练/560测试,使用ToF相机数据)。
    • 合成数据​:NYU-v2(1,000训练/449测试,双三次下采样生成LR)。
  • 评估指标​:RMSE(均方根误差,厘米单位),参数数量(Params)和推理时间。
b. ​主要结果
  • 真实世界性能(表1)​​:DORNet在RGB-D-D和TOFDSR上均优于现有方法(如SFG、SGNet)。例如:
    • RGB-D-D:RMSE 3.42 cm(vs. SFG的3.88 cm),参数仅3.05M。
    • TOFDSR:RMSE 4.33 cm(与SGNet持平),参数更低。
  • 噪声鲁棒性(表2)​​:在添加高斯噪声和模糊后,DORNet保持最优(如RGB-D-D噪声环境RMSE 4.08 cm,优于SFG的4.24 cm)。
  • 合成数据性能(表3)​​:在NYU-v2上,DORNet-T(轻量版)在x4上RMSE 1.33 cm,优于DCTNet(1.59 cm)和FDSR(1.61 cm)。
  • 效率权衡(图6)​​:DORNet-T在参数(0.46M)、推理时间(35%低于DCTNet)和FPS间取得平衡。

 

可视化结果​:如图8-9所示,DORNet恢复的HR深度结构更精确(如手袋边缘),错误图亮度更低。 

 

DCTNet SFG SGNet DORNet-T DORNet
Figure 8. Visual results(left) and error maps(right) on the real-world RGB-D-D dataset(w/o Noise). 

 

c. ​消融研究
  • 降级学习与正则化(图11)​​:移除降级学习(DL)和正则化(DR)时,RMSE上升0.82 cm;联合使用效果最佳。
  • DOFT迭代次数(图12a)​​:5次迭代达到性能-复杂度平衡。
  • 损失函数(图12b)​​:Ldeg​ 和 Lcont​ 联合降低RMSE 0.27 cm(噪声环境)。
  • 生成器数量(图12c)​​:4生成器选3(g4k3)最优。

 


5. ​主要贡献与结论

  • 贡献​:
    1. 新颖框架​:提出DORNet,首次通过隐式降级表示处理真实场景未知降级。
    2. 自我监督降级学习​:基于路由选择的降级正则化,无监督建模降级表示。
    3. 降级导向融合​:DOFT模块利用降级先验选择性传播RGB内容。
    4. 实验验证​:在真实和合成数据集上实现SOTA,模型轻量高效。
  • 结论​:DORNet通过学习LR深度的降级表示,为RGB-D融合提供针对性指导,显著提升盲DSR在真实场景的鲁棒性和精度。未来可扩展至其他多模态恢复任务。

论文地址: https://openaccess.thecvf.com/content/CVPR2025/papers/Wang_DORNet_A_Degradation_Oriented_and_Regularized_Network_for_Blind_Depth_CVPR_2025_paper.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/90701.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/90701.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关系与逻辑运算 —— 寄存器操作的 “入门钥匙”

前言 哈喽大家好,这里是 Hello_Embed 的新一篇学习笔记。在前文中,我们学习了如何用结构体指针操作硬件寄存器,而寄存器的配置往往离不开位运算和条件判断 —— 比如通过逻辑运算精准修改某几位的值,通过关系运算判断硬件状态。这…

使用 Python 将 CSV 文件转换为带格式的 Excel 文件

在日常的数据处理和报表生成工作中,CSV 格式因其简洁性而被广泛采用。但在展示数据时,CSV 文件往往缺乏格式和结构化样式,不利于阅读与分析。相比之下,Excel 格式(如 .xlsx)不仅支持丰富的样式设置&#xf…

每天读本书-《如何度过每天的24小时》

全景式书籍探索框架 1. “这本书是关于什么的?”——核心定位 一句话核心思想:这本书的核心并非教你如何高效地工作,而是倡导你将工作之外的“自由时间”视为一个“内在的另一天”,并投入智力与热情去经营它,从而获得精…

前端开发 React 状态优化

为了更深入地理解 React 状态管理的性能问题及其解决方案,本文将详细分析 React Context 和 State 的性能问题,配以示例代码说明优化策略。之后,讨论 Redux 作为不可变库的性能问题,并引出 Immer 作为优化解决方案。1. React Stat…

剑指offer第2版:双指针+排序+分治+滑动窗口

一、p129-JZ21使奇数位于偶数前面(不考虑相对位置)(hoare快排双指针) 调整数组顺序使奇数位于偶数前面(二)_牛客题霸_牛客网 如果不考虑相对位置的话,那么我们可以模仿hoare快排,使用双指针的思想&#xf…

14-C语言:第14天笔记

C语言:第14天笔记 内容提要 指针 变量指针与指针变量 指针变量做函数参数指针变量指向数组元素 数组指针与指针数组 数组指针回顾 变量指针与指针变量 变量指针:变量的地址值(首地址),本质是指针、地址 指针变量&#…

【笔记】活度系数推导

文章目录一、理想溶液的假设与局限性1.1 理想溶液的定义1.2 理想溶液的局限性二、活度与活度系数的引入2.1 活度的定义2.2 修正后的化学势表达式三、活度系数的物理意义四、为什么需要活度系数?4.1 理论需求4.2 扩散理论中的必要性五、活度系数的具体作用5.1 在化学…

基于Docker的GPU版本飞桨PaddleOCR部署深度指南(国内镜像)2025年7月底测试好用:从理论到实践的完整技术方案

还是网上没找到这个基于Docker的GPU版本飞桨PaddleOCR部署教程,于是就有了这一篇。 这个的确坑很多,可能后面变一个版本就不好用了,也是为什么这篇博客不完全粘贴代码的原因。 端口是示例,可以随意改。在人工智能与文档数字化高速…

Python-初学openCV——图像预处理(三)

目录 一、边缘填充 1、边界复制 2、边界反射 3、边界反射101 4、边界常数 5、边界包裹 二、透视变换 三、图像掩膜 1、制作掩膜 2、与运算 3、颜色替换 四、ROI切割 五、图像添加水印 一、边缘填充 我们对图像进行处理后,需要对空出来的区域进行一个填充…

【ESP32设备通信】-W5500与ESP32 /ESP32 S3集成

W5500与ESP32 /ESP32 S3集成 文章目录 W5500与ESP32 /ESP32 S3集成 1、W5500介绍 2、硬件准备与接线 3、代码实现 3.1 以太网设置 3.2 简单HTTP请求 3.3 HTTPS请求 3.4 查询证书 ESP32 凭借其强大的 Wi-Fi 功能,一直是物联网项目的热门选择。ESP32 现在支持带有 SSL 的原生以太…

vue - 使用canvas绘制验证码

封装绘制验证码 verify-code.vue<template><div class"captcha"><canvas ref"canvasRef" :width"width" :height"height" click"refreshCaptcha"></canvas></div> </template><scri…

[10月考试] F

[10月考试] F 题目描述 给定长度为 nnn 的序列 ana_nan​&#xff0c;保证 aia_iai​ 为非负整数。 mmm 次询问&#xff0c;每次给定区间 l,rl,rl,r&#xff0c;求出 al,al1,…,ara_l,a_{l1},\ldots,a_ral​,al1​,…,ar​ 的 mexmexmex。 对于一个序列&#xff0c;定义其 mexm…

收集了全球55个AI写作工具

我们即将推出一整套AI生产力工具矩阵&#xff0c;覆盖内容创作&#xff08;AI写作助手&#xff09;、视觉设计&#xff08;智能图像处理&#xff09;、音视频制作&#xff08;自动转录与编辑&#xff09;及智能编程等多个核心领域。这些解决方案通过先进的机器学习算法&#xf…

Elastic 劳动力的生成式 AI:ElasticGPT 的幕后解析

作者&#xff1a;来自 Elastic Jay Shah, Adhish Thite ElasticGPT — 由 Elastic 提供支持&#xff0c;专为 Elastic 打造 ElasticGPT 是我们基于检索增强生成&#xff08;RAG&#xff09;框架构建的内部生成式 AI &#xff08;GenAI&#xff09;助手。它是使用 Elastic 自有…

CS231n-2017 Assignment1

KNN&#xff1a;这里要求我们完成一个KNN分类器&#xff0c;实现对图片使用KNN算法进行分类标签k_nearest_neighbor.py这里要求我们完成4个接口# X:测试集 # 使用两个循环 def compute_distances_two_loops(self, X):num_test X.shape[0]num_train self.X_train.shape[0]dist…

[python][flask]Flask-Principal 使用详解

Flask-Principal 是一个专为 Flask 应用设计的身份管理和权限控制扩展。它能够帮助开发者轻松实现用户身份验证和权限管理&#xff0c;从而提升应用的安全性和用户体验。该项目最初由 Ali Afshar 开发&#xff0c;现已成为 Pallets 社区生态系统的一部分&#xff0c;由社区共同…

抖音与B站爬虫实战,获取核心数据

本文将深入讲解两大主流短视频平台&#xff08;抖音、B站&#xff09;的爬虫实战技术&#xff0c;提供可直接运行的代码解决方案&#xff0c;并分享突破反爬机制的核心技巧。一、平台特性与爬虫难点对比平台数据价值主要反爬措施推荐抓取方式抖音视频数据、用户画像、热榜签名验…

WSL切换网络模式

WSL切换网络模式问题WSL从NAT改成MIRRORED找到WSL Setting修改配置重启电脑&#xff08;注意不是重启WSL&#xff09;运行pio run验证IP问题 从鱼香ROS买了一个小鱼车&#xff0c;开始学习&#xff0c;然而装环境都要搞死我了。 垃圾VirtualBox我新买的电脑&#xff0c;装个Vi…

[Linux入门] Linux 远程访问及控制全解析:从入门到实战

目录 一、SSH 远程管理&#xff1a;为什么它是远程访问的首选&#xff1f; 1️⃣什么是 SSH&#xff1f; 2️⃣SSH 为什么比传统工具更安全&#xff1f; 3️⃣SSH 的 “三大组成部分” 4️⃣SSH 工作的 “五步流程” 5️⃣常用 SSH 工具 二、实战&#xff1a;构建 SSH 远…

n8n AI资讯聚合与分发自动化教程:从数据获取到微信与Notion集成

引言 n8n简介&#xff1a;自动化工作流利器 n8n是一款功能强大的开源自动化工具&#xff0c;采用独特的“公平代码”&#xff08;Fair-Code&#xff09;许可模式&#xff0c;旨在帮助用户连接各种应用程序和服务&#xff0c;从而实现工作流的自动化。它通过直观的可视化界面&am…