CVPR | 2025 | MAP:通过掩码自回归预训练释放混合 Mamba - Transformer 视觉骨干网络的潜力

文章目录

  • CVPR | 2025 | MAP:通过掩码自回归预训练释放混合 Mamba - Transformer 视觉骨干网络的潜力
    • 创新点
    • 初步研究
      • 初步结论
    • 方法
      • 确定一个混合网络
      • 方法
      • 掩码机制
      • 掩码比例
      • MAP的transformer解码器
      • 重建目标
    • 实验
      • ImageNet-1k 上的 2D 分类

CVPR | 2025 | MAP:通过掩码自回归预训练释放混合 Mamba - Transformer 视觉骨干网络的潜力

  • 论文:https://arxiv.org/pdf/2410.00871
  • 代码:https://github.com/yunzeliu/MAP
  • (代码)镜像:https://gitee.com/apuppyliu-cong/MAP.git
  • 会议:CVPR
  • 年份:2025

创新点

  • 贡献主要有以下三点:
    • 第一,首次提出了一种用于预训练混合 Mamba - Transformer 视觉骨干网络的新方法,在统一框架下提升了混合骨干网络以及纯 Mamba 和纯 Transformer 骨干网络的性能。
    • 第二,为了便于分析,我们还对纯 Mamba 在自回归预训练中的关键组件进行了深入分析,发现其有效性取决于预训练顺序与 Mamba 扫描顺序的一致性,以及合适的令牌掩码比例。
    • 第三,我们证明了所提出的 MAP 方法在各种 2D 和 3D 数据集上,显著提升了 Mamba - Transformer 和纯 Mamba 骨干网络的性能。大量的消融实验证实了每个设计选择的合理性和有效性。

初步研究

表 1. 初步研究。我们使用 ViT - B 和 Vim - B 作为默认配置。AR 策略按行优先顺序处理图像令牌,而 MAE 按照默认设置运行。对于对比学习,我们仅使用裁剪和缩放的数据增强,并使用 MoCov2 进行预训练。所有实验都在 224x224 的分辨率下进行。AR 的掩码令牌数量设置为 40 个令牌(20%)。

  1. 实验表明,MAE 更适合 Transformer 的预训练,而 AR 更适合 Mamba 的预训练
    1.1 对于 ViT 而言,应用 MAE 策略对于建立令牌之间的双向关联、从而提高性能至关重要
    1.2 对于 Vim,更重要的是对前后令牌之间的连续性进行建模
  2. 经过深入分析发现,与扫描顺序一致的自回归预训练以及适当的掩码比例是 Mamba 预训练的关键

表 2. AR 顺序对下游任务的影响。Vim(R)指采用行优先扫描的 Vim。Vim(C)指采用列优先扫描的 Vim。AR(R)指行优先自回归预训练。AR(C)指列优先自回归预训练。结果表明,当 AR 预训练设计与 Mamba 的扫描顺序一致时,可获得最佳性能。

图 3. AR 预训练和 Mamba 扫描的不同顺序。行优先和列优先的顺序使网络能够以不同的方式和序列感知局部信息。

  1. 自回归预训练的掩码比例。

表 3. 掩码比例对 AR 预训练的影响。分别掩码 1 个令牌(0.5%)、20 个令牌(10%)、40 个令牌(20%)、60 个令牌(30%)、100 个令牌(50%)和 140 个令牌(70%),同时记录在下游任务上的微调结果。实验表明,适当的掩码比例对于自回归预训练很重要。

初步结论

得出以下三个结论,作为设计混合骨干网络预训练的参考:

  • MAE 更适合 Transformer,而 AR 更适合 Mamba。
  • 对于 Transformer 的 MAE 预训练,非对称结构和适当的掩码比例很重要。
  • 对于 Mamba 的 AR 预训练,适当的 AR 顺序和掩码比例很重要。

方法

本文的重点是研究如何预训练混合 Mamba - Transformer 框架,而非设计混合框架本身。

确定一个混合网络

结果表明,采用 MMMTMMMT 的混合方式效果最佳。在比较 Mamba - R * 与 MMMMMMTT 时,发现在 Mamba 之后添加 Transformer 增强了其长上下文建模能力,从而提升了性能。在比较 MMMMMMTT 与 TTMMMMMM 时,我们观察到仅仅在 Mamba 之后附加 Transformer 并不能充分发挥该架构的潜力

这表明在开始部分融入 Transformer 对于提取足够的局部特征至关重要。我们认为 MMMTMMMT 方法有效地平衡了局部特征提取和上下文建模增强,因此将其作为我们的默认配置。

图 4. 不同的混合模型设计。(d)取得了最佳结果,被设置为默认模型,并称为 HybridNet。

表 4. Mamba - Transformer 骨干网络的混合设计。所有实验都是从零开始训练的。Mamba - R表示 24 个 Mamba - R [40] Mamba 层加上 8 个额外的 Mamba 层。DeiT表示 24 个 DeiT [39] Transformer 层加上 8 个额外的 Transformer 层。MMMMMMTT 表示 24 个 Mamba 层之后跟随 8 个 Transformer 层。TTMMMMMM 表示 8 个 Transformer 层之后跟随 24 个 Mamba 层。TMMMTMMM 表示由 1 个 Transformer 层和 3 个 Mamba 层组成的单元,重复 8 次。MMMTMMMT 表示由 3 个 Mamba 层之后跟随 1 个 Transformer 层组成的单元,重复 8 次。

方法

图2.(a)MAE预训练。其核心在于基于未掩码的令牌重建被掩码的令牌,以建立全局双向上下文理解。(b)AR预训练。它着重于建立上下文之间的关联,其可扩展性在大型语言模型领域已得到充分验证。(c)MAP预训练(我们提出的方法)。我们的方法首先对输入图像进行随机掩码处理,然后以逐行自回归的方式重建原始图像。这种预训练方法在对局部特征的上下文特征以及局部特征之间的关联进行建模方面展现出显著优势,使其与Mamba-Transformer混合架构具有高度的兼容性。(d)在ImageNet-1K上不同预训练策略下的性能提升。我们发现MAE预训练更适合Transformer,而AR更适配Mamba。另一方面,MAP更适合Mamba-Transformer骨干网络。此外,MAP在对纯Mamba或纯Transformer骨干网络进行预训练时也表现出令人瞩目的性能,这体现了我们方法的有效性和广泛适用性。

如图 2(c)所示,对于给定图像,HybridNet 首先将经过随机掩码处理的图像映射到特征空间,随后借助 Transformer 解码器按行对原始图像进行解码。

假设将图像 I\mathbf{I}I 按行划分:
I={r1,r2,...,rM}I=\left\{r_{1}, r_{2}, ..., r_{M}\right\}I={r1,r2,...,rM}
每行 rir_{i}ri 由以下令牌组成:
ri={xi1,xi2,...,xiN}r_{i}=\left\{x_{i 1}, x_{i 2}, ..., x_{i N}\right\}ri={xi1,xi2,...,xiN}
在每行中选取一部分令牌进行掩码处理。

Mi⊂{1,2,...,N}M_{i} \subset\{1,2, ..., N\}Mi{1,2,...,N} 表示行 rir_{i}ri 中被掩码令牌的索引。

对于给定的行 rir_{i}ri ,需同时预测所有被掩码的令牌:
p(xij∣xi,j∉Mi,r<i)p\left(x_{i j} | x_{i, j \notin M_{i}}, r_{<i}\right)p(xijxi,j/Mi,r<i)

其中,r<ir_{<i}r<i 指的是第 iii 行之前的所有行。

iii 行中令牌的预测取决于所有先前的行以及该行内可见的令牌。这可以表示为:
p(ri∣r<i)=∏j=1Np(xij∣xi,j∉Mi,r<i)p\left(r_{i} | r_{<i}\right)=\prod_{j=1}^{N} p\left(x_{i j} | x_{i, j \notin M_{i}}, r_{<i}\right)p(rir<i)=j=1Np(xijxi,j/Mi,r<i)
整体的损失函数为预测令牌的负对数似然之和:
L=−∑i=1M∑j∈Milog⁡p(xij∣xi,j∉Mi,r<i)\mathcal{L}=-\sum_{i=1}^{M} \sum_{j \in M_{i}} \log p\left(x_{i j} | x_{i, j \notin M_{i}}, r_{<i}\right)L=i=1MjMilogp(xijxi,j/Mi,r<i)

掩码机制

实验了不同的掩码策略,包括随机掩码、顺序掩码和对角线掩码。实验表明,随机掩码能产生最佳结果。

图 5. 不同的掩码策略。随机掩码策略产生最佳结果。

掩码比例

MAP的transformer解码器

使用 Transformer 解码器而非 Mamba 解码器的原因是,Transformer 解码器可以通过应用解码器掩码,基于编码器的特征进行区域重建。相比之下,Mamba 解码器由于其单向扫描特性,难以同时重建整个局部区域。

解码器采用独特的行解码策略,允许一次对一行令牌进行自回归解码,增强了网络捕获局部特征和区域间上下文关系的能力。

图 6. 不同的解码器掩码。绿色表示激活。白色表示非激活。

表 6. 解码器掩码设计。我们的 MAP 解码器策略取得最佳结果。

重建目标

重建目标与 MAE 一致,我们将归一化的原始像素作为重建目标,并采用 MSE 损失。

实验

ImageNet-1k 上的 2D 分类

预训练阶段,我们采用 50% 掩码比例的随机掩码策略,仅使用随机裁剪作为数据增强策略。在所有设置下训练 1600 个 epoch。在微调阶段,我们直接微调 400 个 epoch 并报告结果。

表 8. ImageNet-1k 分类结果。吞吐量在 A100 GPU 上计算。内存开销以 128 的批处理大小衡量。我们的结果以蓝色突出显示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/93899.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/93899.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot + Spring AI 最小可运行 Demo

一. 项目依赖&#xff08;pom.xml&#xff09;<project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0https://maven.apache.org/xsd/mav…

AI重塑校园教育:中小学AI智慧课堂定制方案+AI作业批改减负,告别一刀切学生进步快

家长们&#xff0c;你有没有听过孩子抱怨上学的烦恼&#xff1f;课堂上老师讲的内容&#xff0c;有的同学觉得太简单 “吃不饱”&#xff0c;有的却跟不上 “听不懂”&#xff1b;放学后作业堆成山&#xff0c;老师要熬夜批改到半夜&#xff0c;错题反馈要等第二天才能拿到&…

旧物循环,交易新生——旧物回收二手交易小程序,引领绿色消费新风尚

在资源日益紧张、环境污染问题日益突出的今天&#xff0c;绿色消费已经成为时代发展的必然趋势。旧物回收二手交易小程序&#xff0c;作为绿色消费的重要载体&#xff0c;正以其独特的优势和魅力&#xff0c;引领着一场关于旧物循环、交易新生的绿色革命。一、旧物循环&#xf…

刷机维修进阶教程-----如何清除云账号 修复wifi 指南针 相机 指纹等刷机故障

在刷机、系统升级或降级过程中,是否遇到过以下问题:WiFi无法开启、相机无响应、指南针或陀螺仪失灵 指纹等故障?另外,云账号是否仍会保留,即使通过9008模式刷机也无法彻底清除?那么这篇博文都可以找到答案。 通过博文了解💝💝💝 1💝💝💝----云账号信息分区如…

AI翻唱实战:用[灵龙AI API]玩转AI翻唱 – 第6篇

历史文章 [灵龙AI API] 申请访问令牌 - 第1篇 [灵龙AI API] AI生成视频API&#xff1a;文生视频 – 第2篇 图生视频实战&#xff1a;用[灵龙AI API]玩转AI生成视频 – 第2篇&#xff0c;从静图到大片 单图特效实战&#xff1a;用[灵龙AI API]玩转AI生成视频 – 第3篇&#…

大模型0基础开发入门与实践:第11章 进阶:LangChain与外部工具调用

第11章 进阶&#xff1a;LangChain与外部工具调用 1. 引言 在上一章&#xff0c;我们成功地创造了我们的第一个“生命”——一个可以对话的机器人。我们为它的诞生而兴奋&#xff0c;但很快我们就会发现它的局限性。它就像一个被囚禁在玻璃房中的天才大脑&#xff0c;拥有渊博…

SQL 日期处理:深入解析与高效实践

SQL 日期处理&#xff1a;深入解析与高效实践 引言 在数据库管理中&#xff0c;日期和时间数据的处理是不可或缺的一部分。SQL&#xff08;结构化查询语言&#xff09;提供了丰富的日期和时间函数&#xff0c;使得对日期的处理变得既灵活又高效。本文将深入探讨SQL日期处理的相…

源代码部署 LAMP 架构

源代码部署 LAMP 架构 &#xff08;Linux Apache MySQL PHP&#xff09; 一、LAMP 架构概述 LAMP 是一套经典的开源 Web 服务架构&#xff0c;通过源代码安装可实现高度定制化&#xff0c;适用于对软件版本、功能模块有特定需求的场景。本指南基于 CentOS 7 系统&#xf…

GO环境变量中GO111MODULE到底是干啥的?

查看GO111MODULE变量GO111MODULE的作用GO111MODULE的案例演示 一&#xff0c;查看GO111MODULE变量 ]# go env GO111MODULE 或者 ]# go env | grep GO111MODULE二&#xff0c;GO111MODULE的作用 auto : 自动判断机制 当项目位于 $GOPATH/src 目录外且包含 go.mod 文件时&…

在线培训机构如何降低培训视频被盗录的风险

每一节精心录制的培训视频&#xff0c;都凝聚着讲师的心血与机构的巨大投入。然而&#xff0c;只需一个简单的录屏软件&#xff0c;这一切都可能被轻易窃取。一旦被盗取&#xff0c;不但会损失经济利益&#xff0c;还可能会影响机构的声誉。那么&#xff0c;在线培训机构如何降…

Docker:安装配置

目录一、卸载旧版本二、配置Docker的yum库三、安装Docker3.1 在线安装方式3.2 离线安装方式四、配置阿里云镜像加速【选配】五、Docker服务相关命令六、导出和导入镜像官网 一、卸载旧版本 首先如果系统中已经存在旧版本的Docker&#xff0c;则先卸载&#xff1a; yum remov…

RabbitMQ:SpringAMQP 入门案例

目录一、概述二、基础配置三、生产者四、消费者一、概述 这是一篇Java集成RabbitMQ的入门案例&#xff0c;在这里我们做一个小案例&#xff0c;来体会一下RabbitMQ的魅力。 首先我们要做的就是创建一个生产者一个消费者&#xff1a; 生产者直接向RabbitMQ的队列&#xff08;Q…

Ubuntu 下面安装搜狗输入法debug记录

目录0. 整体安装流程1. 在键盘输入法系统中&#xff0c;没有“fcitx”选项解决方法0. 整体安装流程 详细的Ubuntu搜狗输入法安装指南请参考官方教程&#xff1a;Ubuntu搜狗输入法安装指南 1. 在键盘输入法系统中&#xff0c;没有“fcitx”选项 即使是安装完 fcitx&#xff0…

Jenkins+GitLab在CentOS7上的自动化部署方案

最近在安装jenkins实现微服务的自动发布&#xff0c;记录配置过程以免再次踩坑。 Centos7环境准备 jenkins、gitlab配置&#xff0c;全程使用ftpuser普通用户操作 &#xff08;1&#xff09;安装好jdk并配置好环境变量 安装路径/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.191.…

打开或者安装Navicat时出现Missing required library libcurl.dll,126报错解决方法(libmysql_e.dll等)

提示 Missing required library libcurl.dll 出现原因是由于Navicat安装目录下libcurl.dll可能不能用了&#xff0c;下载该文件放到Navicat安装目录下即可。下载地址&#xff1a;libcurl.dll — download free for Windows 下载解压包里只有个libcurl.dll 提示 Missing requir…

基于SpringBoot的流浪动物领养管理系统【2026最新】

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏&#xff1a;…

Qt实现TabWidget通过addTab函数添加的页,页内控件自适应窗口大小

前言&#xff1a;因为项目的要求&#xff0c;需要把几个不同类型功能的界面集成在同一个窗口中&#xff0c;方便用户不切换窗口&#xff0c;也能快捷的操作不同类型的功能。我首先想到的是通过选项卡方式&#xff0c;让几个类别的功能界面通过不同选项卡进行切换&#xff0c;这…

代码随想录算法训练营27天 | ​​56. 合并区间、738.单调递增的数字、968.监控二叉树(提高)

题目链接&#xff1a;56. 合并区间、738.单调递增的数字、968.监控二叉树 文章链接&#xff1a;代码随想录 贪心算法 1. 合并区间 &#xff08;待更新...&#xff09; class Solution { private:static bool cmp(const vector<int>& a, const vector<int>&…

从 H.264/H.265 到 H.266:RTSP播放器的跨代际演进

引言&#xff1a;H.266与实时视频的交汇点 视频编解码的发展历程&#xff0c;始终是 带宽效率与视觉体验的博弈。从 H.264 的普及&#xff0c;到 H.265/HEVC 的深化应用&#xff0c;每一次标准迭代&#xff0c;都在推动视频向更高分辨率、更高帧率、更复杂场景的应用迈进。而 …

oc-mirror plugin v2 错误could not establish the destination for the release i

openshift 4.19使用的镜像仓库为harbor. 运行disk to registry时出现下面的错误&#xff1a; 2025/08/19 17:51:13 [ERROR] : [Executor] [release collector] could not establish the destination for the release image 备注&#xff1a; 我没有账户&#xff0c;无法打开…