【论文阅读|V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING】

论文题目:V2M: VISUAL 2-DIMENSIONAL MAMBA FOR IMAGE REPRESENTATION LEARNING

年份:2024

期刊会议: arXiv

代码链接:https://github.com/wangck20/V2M

目录

    • 现阶段存在的问题
        • 1. 二维结构信息丢失
        • 2. 一维 Mamba 架构的局限性
        • 3. 提升视觉任务表现
      • 相关研究
  • 方法
        • 二维状态空间模型设计:
    • V2M流程
    • 1. 输入与预处理
    • 2. 四向旋转
    • 3. 2D 状态空间模型 (2D SSM) 计算
    • 4. 水平方向隐状态拆解与并行计算
    • 5. 输入变换与拼接
    • 6. 2D SSM输出拼接与旋转复原
    • 7. 最终输出
    • 实验
      • 分类任务
      • 消融实验
        • 理论分析

现阶段存在的问题

Visual 2-Dimensional Mamba(V2M)提出的核心目的在于为视觉任务设计一种保留二维结构信息、同时具有高效状态空间建模能力的新型视觉骨干网络。其主要解决的痛点包括:

1. 二维结构信息丢失
  • 问题:传统 Mamba 属于一维序列模型,视觉任务通常将图像切成 patch,并展平成序列输入,这破坏了图像的二维局部结构(如邻域相关性)。
  • 解决方案:V2M 将 SSM 从 1D 扩展至 2D,直接在二维网格上对状态进行递推,分别从行和列方向考虑邻接状态,保持局部空间结构。
2. 一维 Mamba 架构的局限性
  • 问题:即使采用多种扫描策略,1D Mamba 仍难以重构原始二维空间关系。
  • 解决方案:V2M 使用二维状态方程,以更加自然的方式在二维栅格上传播状态(从四个角开始),避免长路径扫描对空间连贯性的破坏。
3. 提升视觉任务表现
  • 问题:1D Mamba 无法充分利用图像的二维结构表示。
  • 解决方案:V2M 通过二维 SSM 建模,提升模型对局部与全局视觉信息的捕捉能力,在 ImageNet、COCO、ADE20K 等任务上超越基线模型。

相关研究

  • CNN 系列:ResNet、RegNet 等
  • Vision Transformers:ViT、Swin Transformer
  • Visual-Mamba 系列:Vim(Zhu et al., 2024)、LocalMamba(Huang et al., 2024)
  • 状态空间模型(SSM):S4 (Gu et al.,2021a)、Mamba (Gu & Dao,2023)
  • 二维 SSM 基础:Roesser Model (Kung et al.,1977)
  • 视觉表示学习
    • 监督:ResNet,MoCo 等
    • 自监督:MAE、SimCLR、BYOL 等

方法

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

二维状态空间模型设计:

二维状态更新方程如下:

{ h 1 i , j + 1 = A 1 h 1 i , j + A 3 h 2 i , j + B 1 x i , j h 2 i + 1 , j = A 2 h 1 i , j + A 4 h 2 i , j + B 2 x i , j y i , j = C 1 h 1 i , j + C 2 h 2 i , j \begin{cases} h_1^{i,j+1} = A_1 h_1^{i,j} + A_3 h_2^{i,j} + B_1 x_{i,j} \\ h_2^{i+1,j} = A_2 h_1^{i,j} + A_4 h_2^{i,j} + B_2 x_{i,j} \\ y_{i,j} = C_1 h_1^{i,j} + C_2 h_2^{i,j} \end{cases} h1i,j+1=A1h1i,j+A3h2i,j+B1xi,jh2i+1,j=A2h1i,j+A4h2i,j+B2xi,jyi,j=C1h

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94584.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94584.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

服务器数据安全:利用阿里云OSS/腾讯云COS实现网站数据自动备份

更多云服务器知识,尽在hostol.com你的网站,就像一座你亲手在数字海滩上堆砌起来的、精美绝伦的“沙堡”。你为它设计了独特的风格,添置了丰富的内容,吸引了越来越多的游客前来参观。每一篇文章,每一条评论,…

AdGuard 安卓修改版:全方位广告拦截与隐私保护专家

AdGuard 安卓版是一款功能强大的广告拦截软件,能够有效阻止网页和应用程序中的广告和跟踪器,提升用户的浏览体验。它不仅提供了广泛的广告拦截功能,还通过多种隐私保护功能,确保用户的个人信息安全。以下是 AdGuard 安卓版的详细介…

Mysql中的锁到底是什么?锁的是什么?

MySQL InnoDB 的锁:一次从“守卫”到“交通指挥中心”的深度之旅 MySQL InnoDB 的锁。这个概念常常让人觉得复杂抽象,但我们需要抓住它的底层设计哲学 忘记那些代码和术语定义,我们先从最底层的问题开始思考: 思考一:为…

CVE-2020-24557

一、漏洞原理 CVE-2020-24557 是 D-Link 路由器(如 DIR-816L2) 中存在的一个 命令注入(Command Injection) 漏洞,其核心原理为: ①路由器的管理界面(Web 或 CGI 接口)在处理某些用户…

proxychains——Linux代理工具

简介 ProxyChains是一个UNIX程序,通过预加载动态库(dlsym(),LD_PRELOAD)劫持动态链接程序中与网络相关的libc函数,将连接重定向至SOCKS4a/5或HTTP代理。仅支持TCP协议(不支持UDP/ICMP等)。它的工作方式基本…

精确调控建筑环境,楼宇自控系统大幅提升居住舒适度

在现代城市化进程中,建筑环境的舒适度已成为衡量生活质量的重要指标。随着科技的飞速发展,楼宇自控系统(Building Automation System, BAS)正以前所未有的精准度重新定义人与空间的互动关系。这套集成了物联网、大数据和人工智能的…

Echarts中的水波图、水球图、水半球实现的详细步骤(vue)

目录 一、实现效果 二、实现步骤 1. 安装ECharts和Liquid Fill插件 2. 创建一个组件 3.在创建的vue中引入ECharts和Liquid Fill插件 4.在组件中初始化ECharts和Liquid Fill插件 5.完整代码 一、实现效果 Echarts中的水位图(水波图、水球图、水半球)…

Vue父组件向子组件传递一个动态的值,子组件如何保持实时更新实时更新?

父组件 通过 :issueDeptId this.form109.issueDeptId传数据到子组件 <inv-info ehco-data"selectOutInvId" :purposeId this.form109.purposeId:issueDeptId this.form109.issueDeptId:projectNo this.form109.projectNo:invPhysicIds this.form109.issuePh…

如何通过主数据治理重构企业系统竞争力

在当前企业数字化转型持续深化的背景下&#xff0c;IT系统复杂度与数据规模呈指数级增长。CRM、ERP、HRM、供应链、电商平台等多系统并行运作已成为常态。然而&#xff0c;随之而来的主数据&#xff08;Master Data&#xff09;管理难题&#xff0c;正日益成为制约系统稳定性、…

c++ 中 原子锁、互斥锁、自旋锁的区别和详细用法

用最生活化的比喻来解释 C 中原子锁、互斥锁和自旋锁的区别和用法&#xff0c;让小白也能秒懂&#xff01;&#x1f604;想象你 ​​&#xff08;线程&#xff09;​​ 要去公共更衣室 ​​&#xff08;共享资源&#xff0c;如变量、数据结构&#xff09;​​ 换衣服。这个更衣…

RabbitMQ面试精讲 Day 12:镜像队列与Quorum队列对比

【RabbitMQ面试精讲 Day 12】镜像队列与Quorum队列对比 开篇&#xff1a;面试价值与核心要点 在RabbitMQ集群环境中&#xff0c;如何保证消息的高可用性是最常被问及的面试问题之一。今天我们将深入探讨RabbitMQ提供的两种高可用队列实现方案&#xff1a;经典镜像队列(Mirror…

Maven 常用命令详解

前言 Apache Maven 是 Java 项目管理和构建自动化工具&#xff0c;它通过一个项目对象模型&#xff08;POM, Project Object Model&#xff09;来管理项目的构建、报告和文档。Maven 的核心优势在于其强大的依赖管理、标准化的项目结构以及丰富的插件生态系统。掌握 Maven 的常…

Android Studio切换到经典UI,老UI

为什么要写这边文章&#xff0c;我自己的android studio年儿半载安装一次新的&#xff0c;所以记录一下。1、新android studio安装后都是新工作室风格的UI。2、菜单File ->Settings ,在Setting界面将Enable New UI 的勾选去掉&#xff0c;点击OK&#xff0c;重启Android Stu…

走进“Mesh无线自组网”:开启智能家居和智慧工厂

随着科技的迅猛发展&#xff0c;互联网已经渗透到我们生活的方方面面&#xff0c;而其中最引人瞩目的便是“智能家居”和“智慧工厂”。这些新兴领域的飞速发展&#xff0c;离不开底层网络技术的支持。众多的网络通信技术中&#xff0c;Mesh无线自组网以其独特的优势&#xff0…

力扣热题100——双指针

双指针两数之和&#xff08;有序数组&#xff0c;相向双指针&#xff09;问题&#xff1a;在有序数组中找到两个数&#xff0c;使它们的和等于目标值。思路&#xff1a;左指针从起点出发&#xff0c;右指针从终点出发&#xff0c;根据和与目标值的大小调整指针。 #include <…

AI Infra与LLM的联系与差异

一、定义与定位LLM&#xff08;大语言模型&#xff09; 定义&#xff1a;基于海量文本训练的深度学习模型&#xff0c;通过Transformer架构实现语言理解与生成&#xff0c;典型代表如GPT-4、通义千问等。定位&#xff1a;AI应用的核心能力层&#xff0c;直接面向用户提供文本生…

数据结构-双链表

学习完单链表&#xff0c;现在继续学习双链表一、双链表结构带头双向循环链表&#xff08;简称&#xff1a;双链表&#xff09;注意&#xff1a;这⾥的“带头”跟前面我们说的“头节点”是两个概念&#xff0c;实际前面的在单链表阶段称呼不严谨&#xff0c;但是为了同学们更好…

福彩双色球第2025090期篮球号码分析

明天是星期四&#xff0c;明天晚上双色球开奖。福彩双色球第2025090期篮球号码分析&#xff0c;上期开出号码05&#xff0c;数字形式是质数奇数2路球&#xff0c;小号0字头数字。本期篮球号码分析&#xff0c;篮球2尾数0212遗漏6期上次遗漏27期&#xff0c;篮球3尾数0313遗漏4期…

Python爬虫实战:研究Photon工具,构建企业信息收集系统

1. 引言 1.1 研究背景 在数字化时代,互联网作为全球最大的信息载体,涵盖商业情报、学术资源、公共信息等多个领域,对企业决策、学术研究和社会治理具有重要参考价值。传统信息获取方式依赖人工检索和简单脚本爬取,存在效率低下、覆盖范围有限、数据处理能力不足等问题。 …

Python Pandas.lreshape函数解析与实战教程

Python Pandas.lreshape 函数解析与实战教程 摘要 本教程旨在提供一份关于Pandas库中 pandas.lreshape 函数的全面使用教程和分析。lreshape 是一个用于数据重塑(Data Reshaping)的工具,具体而言,它擅长将“宽格式”(Wide Format)数据转换为“长格式”(Long Format)数…