CVPR 2025上,众多创新研究展示了Mamba在图像分类、目标检测、语义分割等多个任务中的卓越表现。其中,可变形Mamba的最新研究成果正在不断刷新我们对视觉任务性能的认知。大连理工大学发布的DefMamba通过可变形扫描策略动态调整扫描路径,优先关注重要信息,显著提升了图像分类、目标检测和分割等任务的性能。Sparse Deformable Mamba在高光谱图像分类中展现了高精度与低计算量的优势,通过稀疏可变形序列动态生成稀疏的Mamba序列,减少冗余和计算成本。
这些创新不仅在理论上拓展了Mamba的应用边界,还为实际场景中的复杂视觉任务提供了更高效、更精准的解决方案。我整理了10篇关于【可变形Mamba】的相关论文,全部论文PDF版,工棕号 沃的顶会 回复“可变曼巴”领取。
X-VILA:Cross-Modality Alignment for Large Language Model
文章解析
本文提出TransMamba框架,通过两阶段策略将Transformer预训练知识迁移至Mamba,设计WSAB方法解决架构差异,引入Cross-Mamba增强跨模态交互,在少数据下提升多任务性能。
创新点
提出两阶段知识迁移框架,通过特征校准和自适应双向蒸馏,将Transformer知识高效迁移至Mamba。
设计Weight Subcloning和Adaptive Bidirectional Distillation(WSAB),解决跨架构层差异和双向优化问题。
引入Cross-Mamba模块,赋予Mamba跨模态交互能力,优化多模态任务中图文信息融合。
研究方法
特征校准:用MLP对齐Transformer与Mamba的特征维度,零填充匹配维度差异,为知识迁移奠基。
自适应双向蒸馏:基于余弦相似度分配层权重,分正向和反向蒸馏,避免矩阵特征过优化。
权重子克隆:复用Transformer非SSM参数,按神经元重要性初始化Mamba,加速收敛。
跨模态优化:设计Cross-Mamba模块,融合文本与图像特征,初始化结合预训练模型稳定训练。
研究结论
TransMamba在图像分类、视觉问答等任务中优于原生Mamba,如CIFAR-100准确率提升2.83%,少用25%数据。
自适应双向蒸馏和权重子克隆有效,50%数据即可达全量训练性能,蒸馏策略比传统方法优。
Cross-Mamba增强跨模态能力,Trans-LLaVA参数减少60%仍接近原模型性能,视频检索指标提升。
TransMamba:Flexibly Switching between Transformer and Mamba
文章解析
本文提出TransMamba框架,通过共享参数矩阵实现Transformer与Mamba动态切换,设计Memory Converter确保信息无损转换,在长序列处理中兼具效率与性能优势。
创新点
设计共享参数矩阵(QKV 与 CBx),实现Transformer与Mamba在不同token长度和层间的动态切换。
开发Memory Converter,将Attention输出转换为SSM兼容状态,确保TransPoint处信息无损传递。
提出灵活TransPoint调度策略,基于序列长度和层间分布优化模型结构,平衡效率与性能。
研究方法
共享参数设计:让Transformer的QKV与Mamba的CBx共享参数,支持两种机制灵活切换。
Memory Converter实现:通过数学推导将Attention的K、V转换为SSM初始状态,保证模式转换时信息一致性。
TransPoint调度:结合序列长度和层间特性,采用对数趋势分布 TransPoint,避免突变影响性能。
多任务验证:在ARQ、LongBench-v2等数据集上对比Transformer、Mamba2 及 Hybrid模型,验证框架优势。
研究结论
TransMamba在效率上较Transformer提升25%,训练FLOPs更低,长序列处理时性能优于Mamba2和Hybrid模型。
Memory Converter和TransPoint调度策略有效,层特异性、宽范围且细粒度的TransPoint设置可提升模型表现。
训练与推理阶段采用不同TransPoint策略仍可行,为后续动态优化提供方向,模型具结构灵活性和扩展性。