【CVPR2025】计算机视觉|SIREN: 元学习赋能!突破INR高分辨率图像分类难题

图片
论文地址:https://arxiv.org/pdf/2503.18123v1
代码地址:https://github.com/SanderGielisse/MWT


关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
图片

摘要

本研究提出了一种端到端的策略,用于初始化SIREN,并结合学习到的学习率方案,以产生能够提高分类准确率的表征。本研究表明,一个简单的、直接的Transformer模型应用于元学习的SIREN,无需引入显式的对称等变性,也能优于当前最先进的方法。在CIFAR-10 SIREN分类任务中,本研究在不使用数据增强的情况下,将最先进的性能从38.8%提高到59.6%,在使用数据增强的情况下,从63.4%提高到64.7%。本研究证明了在高分辨率Imagenette数据集上的可扩展性,实现了合理的重建质量和60.8%的分类准确率,并且首次在完整的ImageNet-1K数据集上进行了INR分类,实现了23.6%的SIREN分类性能。据本研究所知,没有其他SIREN分类方法能够在任何高分辨率图像数据集上建立分类基线
图片

引言

本研究主要关注如何将隐式神经表示(INR)应用于分类任务。INR作为一种将复杂连续信号编码到神经网络参数中的方法,在信号重建方面表现出色。然而,直接将INR应用于分类等下游任务并非易事,因为参数中固有的对称性带来了挑战。目前的研究主要集中在设计对这些对称性具有等变性的架构,但基于INR的分类性能仍然显著低于基于像素的方法,如卷积神经网络(CNN)。

为了解决这个问题,本研究提出了一种端到端的策略,用于初始化SIREN(一种常用的INR模型),并结合学习到的学习率方案,以产生能够提高分类精度的表示。研究表明,一个简单的Transformer模型应用于元学习的SIREN,在没有明确引入对称等变性的情况下,也能胜过当前最优的方法。在CIFAR-10 SIREN分类任务中,本研究在没有数据增强的情况下将当前最优结果从38.8%提高到59.6%,在使用数据增强的情况下从63.4%提高到64.7%

此外,本研究还在高分辨率的Imagenette数据集上展示了方法的可扩展性,实现了合理的重建质量和60.8%的分类精度,并且首次在完整的ImageNet-1K数据集上进行了INR分类,实现了23.6%的SIREN分类性能。据本研究的了解,目前还没有其他SIREN分类方法能够在任何高分辨率图像数据集上建立分类基线。

使用基于MLP的隐式神经表示(INR)具有两个主要优点。首先,与基于固定分辨率像素网格的表示不同,模型在图像空间中的容量不一定是均匀分布的。其次,用作输入的信号不需要是等距像素网格,信号的任何观测子集都可以用来训练模型。不幸的是,虽然INR在用于高分辨率重建方面非常有效,但是直接使用这些隐式表示进行下游任务(例如分类)仍然具有挑战性,因为它需要对参数进行推理。

为了对参数执行诸如分类之类的下游任务,需要一个额外的模型,该模型将作为输入。这涉及到构建一个模型架构,该架构可以将另一个架构的权重作为其输入进行处理。然而,可能包含许多对称性。例如,在MLP的情况下,重新排序节点及其关联的权重会引入置换对称性;也就是说,权重的一种不同排列对应于完全相同的函数。类似地,尺度对称性允许以一种导致相同函数的方式缩放参数,即使已经改变。

一个解决这些对称性的方法是重新对齐权重,以便所有对称性都映射到同一个网络。不幸的是,这种对齐问题是难处理的。另一种解决方案是设计下游架构,使其对的对称性具有等变性,从而有效地绕过对齐问题。因此,许多最近的工作都采用了这种等变设计方法来设计下游架构。然而,这些方法的性能仍然落后于基于像素的分类方法。一个可能的原因是,对于下游模型而言,基于RGB像素的表示比另一个神经网络的权重更容易解释。可能是INR的权重缺乏足够的“结构”,这使得下游模型难以识别有用的图像特征。次优性能的原因是缺乏结构这一说法得到了研究的支持,他们发现,为所有图像使用相同的共享INR初始化,然后通过为每个特定图像INR更新共享初始化来生成特定于图像的INR,可以提高分类结果。这种共享初始化可能通过选择一个固定的参考点来避免对称性。

论文创新点

本研究提出了一个端到端的隐式神经表示(INR)分类框架,专注于提升基于SIREN的图像分类精度。该框架主要有以下几个创新点:

  1. 🚀 元学习初始化策略: 🚀

    • 本研究开发了一种新颖的元学习初始化策略,用于SIREN网络。
    • 该策略通过联合优化SIREN的初始化参数和一个元学习的学习率方案,使得SIREN能够更快地适应不同的图像,并且得到的参数结构更利于分类。
    • 传统的INR分类方法通常分两步进行:首先将图像转换为INR表示,然后独立地训练分类器。而本研究将INR拟合过程融入到分类器的训练循环中,通过反向传播优化INR的结构,实现了端到端的训练,使得分类损失能够直接影响INR的权重结构,从而提高了分类性能。
  2. ⏱️ 计算效率优化: ⏱️

    • 本研究注重计算效率,使得高分辨率图像的INR分类成为可能。
    • 通过采用快速收敛的方法,本研究能够在训练中使用图像空间中的数据增强,进一步提升性能。
    • 此外,本研究还探索了一种计算高效的变体,即在每个步骤中仅对图像像素的子集进行SIREN学习。这种方法在不显著降低重建质量或分类精度的前提下,进一步降低了计算成本。
  3. 💡 简化分类器设计: 💡

    • 本研究采用了一个简单而直接的Transformer模型作为分类器,直接应用于元学习得到的SIREN表示。
    • 与以往需要设计复杂的、对权重对称性具有等变性的分类器不同,本研究表明,通过对MLP参数施加结构约束,可以避免显式地对分类器中的等变性进行建模,从而可以使用标准的分类器并获得良好的性能。
  4. 显著提升分类性能:

    • 本研究在多个数据集上取得了显著的性能提升。
    • 例如,在CIFAR-10数据集上,在没有数据增强的情况下,将当前最优的分类精度从38.8%提高到59.6%,在使用数据增强的情况下,从63.4%提高到64.7%。
    • 更重要的是,本研究首次在高分辨率图像数据集上建立了SIREN分类的基线,在Imagenette数据集上实现了60.8%的分类精度,在ImageNet-1K数据集上实现了23.6%的分类精度。
  5. 🔍 全面的消融研究: 🔍

    • 本研究对所提出的元学习和基于Transformer的方法的关键组成部分进行了详细的消融研究,分析了元初始化、学习率方案和Transformer架构选择对重建和分类性能的影响。
    • 这些研究揭示了各个组件对整体性能的贡献,并为进一步优化INR分类方法提供了指导。
    • 例如,研究发现分类器对元学习的影响(wcls)需要在重建质量和分类性能之间取得平衡。

论文实验

图片
图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/914129.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/914129.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

牛客周赛 Round 99

赛时成绩如下&#xff1a;A. Round 99题目描述 对于给定的五位整数&#xff0c;检查其中是否含有数字 99&#xff1b;换句话说&#xff0c;检查是否存在相邻的两个数位&#xff0c;其值均为 。解题思路&#xff1a; 检查相邻的两个数字是否均为9#include <bits/stdc.h> u…

从0到1搭建个人技术博客:用GitHub Pages+Hexo实现

一、为什么要搭建个人技术博客&#xff1f; 在技术圈&#xff0c;拥有个人博客的好处不言而喻&#xff1a; 简历加分项&#xff1a;面试官更青睐有技术沉淀的候选人知识系统化&#xff1a;输出倒逼输入&#xff0c;加深技术理解人脉拓展&#xff1a;吸引同行关注&#xff0c;…

Ubuntu22.04 设置显示存在双屏却无法双屏显示

文章目录一、背景描述二、解决方法一、背景描述 回到工位后&#xff0c;发现昨天离开时还可正常显示的双屏&#xff0c;今早ubuntu22.04 的设置界面显示有双屏&#xff0c;但外接的显示屏无法正常显示。 首先&#xff0c;查看当前图像处理显卡是否为N卡&#xff0c;没错&#…

高亚科技签约奕源金属,助力打造高效智能化采购管理体系

深圳市奕源金属制品有限公司近日&#xff0c;国内企业管理软件服务商高亚科技与深圳市奕源金属制品有限公司&#xff08;以下简称“奕源金属”&#xff09;正式签约&#xff0c;双方将基于高亚科技自主研发的8Manage SRM采购管理系统&#xff0c;共同推动奕源金属采购管理的数字…

数据结构之map

map的基本介绍我们常常把map称之为映射&#xff0c;就是将一个元素&#xff08;通常称之为key键&#xff09;与一个相对应的值&#xff08;通常称之为value&#xff09;关联起来&#xff0c;比如说一个学生的名字&#xff08;key&#xff09;有与之对应的成绩&#xff08;value…

vue3 canvas 选择器 Canvas 增加页面性能

文章目录Vue3 选择器 Canvas 增加页面性能基于Vue3 Composition API和Canvas实现的交互式选择器&#xff0c;支持PC端和移动端的拖动选择、多选取消选择功能vue3组件封装html代码Vue3 选择器 Canvas 增加页面性能 基于Vue3 Composition API和Canvas实现的交互式选择器&#xf…

Python 实战:打造多文件批量重命名工具

引言在实际运维、测试、数据分析、开发流程中&#xff0c;我们经常会处理成百上千条命令操作&#xff0c;例如&#xff1a;各种脚本任务&#xff08;启动、备份、重启、日志查看&#xff09;数据处理流程&#xff08;爬取 → 清洗 → 统计 → 可视化&#xff09;配置自动化&…

设计模式笔记_结构型_代理模式

1. 代理模式介绍代理模式是一种结构型设计模式&#xff0c;它允许你提供一个代理对象来控制对另一个对象的访问。代理对象通常在客户端和目标对象之间起到中介作用&#xff0c;能够在不改变目标对象的前提下增加额外的功能操作&#xff0c;比如延迟初始化、访问控制、日志记录等…

C语言<数据结构-单链表>(收尾)

上篇博客我将基础的尾插、尾删、头插、头删逐一讲解了&#xff0c;这篇博客将对上篇博客进行收尾&#xff0c;讲一下指定位置操作增删以及查找这几个函数&#xff0c;其实大同小异&#xff1a;一.查找函数&#xff1a;查找函数其实就是一个简单的循环遍历&#xff0c;所以不加以…

十年架构心路:从单机到云原生的分布式系统演进史

十年架构心路&#xff1a;从单机到云原生的分布式系统演进史 这里写目录标题十年架构心路&#xff1a;从单机到云原生的分布式系统演进史一、技术生涯的起点&#xff1a;单体架构的黄金时代1.1 典型技术栈1.2 记忆深刻的故障二、分布式架构转型期2.1 服务化拆分实践2.2 分布式事…

使用docker搭建nginx

安装docker 和 docker compose验证docker版本配置docker目录配置代理&#xff0c;使docker能访问外网能否ping通最后直接拉入镜像即可docker pull nginx

Intel新CPU助攻:微软Copilot+将登陆台式电脑

微软的Copilot PC计划已经推出一年多&#xff0c;但目前仅支持平板电脑和笔记本电脑&#xff0c;以及少数迷你电脑。 随着Intel下一代桌面处理器——代号为“Arrow Lake Refresh”的推出&#xff0c;Copilot PC功能有望扩展到桌面计算机。 要支持Copilot PC的所有功能&#xff…

【Kubernetes】跨节点 Pod 网络不通排查案例

最近在部署一个集群环境的时候&#xff0c;发现集群中一个子节点与其他子节点不通&#xff0c;而 master 节点可与任何子节点互通&#xff0c;通过抓包排查后&#xff0c;发现是 Linux 路由决策导致的。因此&#xff0c;在此记录下来&#xff0c;希望对大家有所帮助。1、环境及…

【算法训练营Day11】二叉树part1

文章目录理论基础二叉树的递归遍历前序遍历中序遍历后序遍历总结二叉树的层序遍历基础层序遍历二叉树的右视图理论基础 二叉树在结构上的两个常用类型&#xff1a; 满二叉树完全二叉树 在功能应用上的比较常用的有&#xff1a; 二叉搜索树&#xff1a; 节点有权值、遵循”左…

Flutter 之 table_calendar 控件

1.库导入在pubspec.yaml文件中dev_dependencies:table_calendar: ^3.2.02. 代码编写TableCalendar(daysOfWeekHeight: 20,availableGestures: AvailableGestures.horizontalSwipe,firstDay: DateTime.now().subtract(const Duration(days: 365)),lastDay: DateTime.now(),cal…

【leetcode】1486. 数组异或操作

数组异或操作题目题解题目 1486. 数组异或操作 给你两个整数&#xff0c;n 和 start 。 数组 nums 定义为&#xff1a;nums[i] start 2*i&#xff08;下标从 0 开始&#xff09;且 n nums.length 。 请返回 nums 中所有元素按位异或&#xff08;XOR&#xff09;后得到的…

php7.4使用 new DateTime;报错 Class DateTime not found

php7.4使用 new DateTime;报错Uncaught Error: Class ‘app\home\c\DateTime’ not found 查了半天资料&#xff0c;最后找到了解决办法 DateTime 是 php 内置的类&#xff0c;不隶属于任何命名空间&#xff0c;如果你需要在命名空间中使用须有 \ 声明&#xff0c;解决办法就是…

Gartner《构建可扩展数据产品建设框架》心得

一、背景与价值 1.1 “数据产品”为什么忽然重要? 传统模式:业务提出需求 → IT 建数据集 → ETL 管道爆炸 → 维护成本指数级上升。 新范式:把“数据”包装成“产品”,以产品思维迭代演进,强调复用、自助、可扩展。 Gartner 观察到:大量组织把“报表”或“数据仓库”重…

CentOS/RHEL LVM 磁盘扩展完整教程

CentOS/RHEL LVM 磁盘扩展完整教程&#x1f4dd; 前言 在Linux系统管理中&#xff0c;磁盘空间不足是经常遇到的问题。特别是在生产环境中&#xff0c;当根分区空间告急时&#xff0c;我们需要通过添加新磁盘来扩展存储空间。本教程将详细介绍如何在CentOS/RHEL系统中使用LVM&a…

LVGL应用和部署(用lua做测试)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】嵌入式产品做好了&#xff0c;下面就是测试和量产了。以按键屏幕的开发模式为例&#xff0c;如果仅仅是简单的功能测试&#xff0c;那还比较好解决&…