论文题目:SCSegamba: Lightweight Structure-Aware Vision Mamba for Crack Segmentation in Structures(用于结构裂纹分割的轻量级结构感知视觉曼巴)
会议:CVPR2025
摘要:不同场景下的结构裂缝像素级分割仍然是一个相当大的挑战。现有方法在有效建模裂纹形态和纹理、平衡分割质量和低计算资源利用率方面存在挑战。为了克服这些限制,我们提出了一种轻量级的结构感知视觉曼巴网络(SCSegamba),能够通过利用裂缝像素的形态信息和纹理线索以最小的计算成本生成高质量的像素级分割地图。具体来说,我们开发了一个结构感知的视觉状态空间模块(SAVSS),它包含了一个轻量级的门控瓶颈卷积(GBC)和一个结构感知的扫描策略(SASS)。gbc的关键之处在于其对裂纹形态信息的有效建模,而SASS则通过增强裂纹像素间语义信息的连续性来增强对裂纹拓扑和纹理的感知。在裂纹基准数据集上的实验表明,我们的方法优于其他最先进的SOTA方法,仅使用2.8M个参数即可实现最高性能。在多场景数据集上,我们的方法F1得分达到0.8390,mIoU得分达到0.8479。
源码链接:https://github.com/ Karl1109/SCSegamba
引言
结构健康监测在现代基础设施维护中扮演着至关重要的角色。无论是沥青路面、混凝土建筑还是金属构件,在长期使用过程中都不可避免地会产生裂缝。这些裂缝如果不及时发现和处理,可能会演变成严重的安全隐患。传统的人工检测方法不仅效率低下,还容易受到主观因素的影响。随着计算机视觉技术的快速发展,基于深度学习的自动裂缝检测技术为这一领域带来了新的解决方案。
现有技术的挑战
CNN方法的局限性
传统的卷积神经网络(CNN)在裂缝分割任务中展现出了良好的局部特征提取能力,但存在明显的局限性:
- 感受野限制:CNN的局部操作和有限感受野限制了其建模全图范围不规则依赖关系的能力
- 连续性问题:难以处理复杂背景下的长距离裂缝连接,容易产生不连续的分割结果
- 噪声敏感:在复杂背景干扰下,背景噪声抑制能力相对较弱
Transformer方法的困境
Vision Transformer虽然在捕获不规则像素依赖关系方面表现出色,但也面临着显著挑战:
- 计算复杂度高:注意力机制的二次复杂度导致高分辨率图像处理时内存使用量急剧增加
- 资源需求大:大量的参数和高计算需求限制了在资源受限设备上的部署
- 效率平衡难:在分割性能和计算效率之间难以找到理想的平衡点
Mamba方法的不足
尽管最近出现的Mamba模型在序列建模方面展现出了优异性能,但现有的Vision Mamba方法在处理裂缝分割任务时仍存在问题:
- 特征处理局限:大多数方法通过线性层处理特征图,限制了对裂缝特征的选择性增强
- 扫描策略不当:常见的并行或单向对角扫描难以维持不规则、多方向像素拓扑的语义连续性
- 检测准确性不足:在多场景裂缝图像中容易产生误检或漏检
SCSegamba的创新解决方案
为了解决上述挑战,研究团队提出了SCSegamba网络,该网络通过以下创新组件实现了高质量的轻量级裂缝分割:
1. 结构感知视觉状态空间模块(SAVSS)
SAVSS是SCSegamba的核心组件,它包含两个关键创新:
轻量级门控瓶颈卷积(GBC):
- 采用瓶颈卷积进行低秩近似,将计算复杂度从O(fp²d)降低到O(f₀p²d) + O(ff₀)
- 通过门控机制动态调整不同空间位置和通道的特征权重
- 能够有效捕获裂缝的形态信息,同时保持低参数量和计算成本
结构感知扫描策略(SASS):
- 设计了四条扫描路径:两条平行蛇形路径和两条对角蛇形路径
- 能够有效提取常规裂缝区域的连续语义信息
- 在多个方向上保持纹理连续性,适合处理复杂背景的多场景裂缝图像
2. 多尺度特征分割头(MFS)
MFS模块负责将SAVSS提取的多尺度特征有效整合:
- 结合GBC和多层感知机(MLP)进行特征处理
- 使用动态上采样技术恢复原始分辨率
- 通过特征聚合生成高质量的分割图
3. 网络架构设计
SCSegamba采用编码器-解码器架构:
- 编码器:4层SAVSS块逐步提取多尺度特征
- 解码器:MFS头部将多尺度特征融合为最终分割结果
- 损失函数:结合二元交叉熵损失和Dice损失,提高对不平衡像素数据的鲁棒性
实验验证与结果分析
数据集与实验设置
研究团队在四个公开数据集上进行了全面评估:
- Crack500:3368张沥青裂缝图像
- DeepCrack:537张多材质裂缝图像
- CrackMap:120张高分辨率沥青路面裂缝图像
- TUT:1408张多场景裂缝图像,包含8种不同场景
性能表现
SCSegamba在所有数据集上都取得了SOTA性能:
TUT多场景数据集:
- F1分数:0.8390(比次优方法高2.21%)
- mIoU:0.8479(比次优方法高1.74%)
其他数据集表现:
- 在DeepCrack数据集上,F1分数达到0.9110,mIoU达到0.9022
- 在CrackMap数据集上,F1分数为0.7678,mIoU为0.8094
- 在所有评估指标上均超越了现有SOTA方法
复杂度分析
SCSegamba的轻量级设计优势明显:
- 参数量:仅2.80M,比次优结果低52.54%
- 计算量:18.16G FLOPs,显著低于其他方法
- 模型大小:37MB,比次优结果小13.95%
- 非常适合在资源受限的边缘设备上部署
消融实验
研究团队进行了详细的消融实验,验证了各组件的有效性:
组件贡献分析:
- GBC的加入使F1分数提高了1.57%,mIoU提高了1.42%
- 残差连接将mIoU提升了2.47%
- SASS扫描策略相比其他扫描方法提升了0.30%的F1分数
分割头对比:
- MFS相比UNet头部,F1分数提高2.67%,mIoU提高2.07%
- 在保持轻量级的同时显著提升了性能
技术创新的深度解析
门控瓶颈卷积的设计理念
GBC的核心思想是通过低秩分解减少计算复杂度,同时利用门控机制增强特征表达能力:
- 低秩近似:将原始卷积Q分解为LM^T的形式,其中L∈ℝ^(f×f₀),M∈ℝ^((p²d)×f₀)
- 瓶颈结构:通过点卷积和深度卷积的组合,在低维子空间中进行高效的空间信息提取
- 门控机制:通过Hadamard乘积实现特征的动态选择和增强
SASS扫描策略的优势
相比传统的扫描方法,SASS具有以下优势:
- 多方向覆盖:四条路径确保了对不同方向裂缝纹理的有效捕获
- 语义连续性:蛇形扫描保持了邻近像素间的语义关联
- 拓扑感知:能够更好地理解裂缝的空间分布和连接关系
实际应用价值与前景展望
应用场景
SCSegamba的轻量级特性和高精度表现使其在多个实际场景中具有广泛的应用价值:
基础设施维护:
- 道路路面裂缝自动检测
- 桥梁结构健康监测
- 建筑物外墙裂缝识别
工业检测:
- 金属构件疲劳裂纹检测
- 压力容器表面缺陷识别
- 管道完整性评估
移动端部署:
- 轻量级设计适合集成到移动设备
- 支持实时检测和现场评估
- 降低了专业设备的依赖
技术优势总结
- 高精度:在多个基准数据集上取得SOTA性能
- 轻量级:参数量和计算量显著低于现有方法
- 鲁棒性:在复杂背景和多种材质上表现稳定
- 实用性:适合实际部署和工程应用
未来发展方向
研究团队在论文中也提出了未来的研究方向:
- 多模态融合:结合其他传感器数据提升检测质量
- VSS优化:进一步优化视觉状态空间设计
- 扫描策略改进:探索更高效的扫描策略
总结
SCSegamba代表了裂缝分割技术的一个重要进步,它成功地解决了传统方法在计算效率和检测精度之间的矛盾。通过创新的SAVSS模块、GBC卷积和SASS扫描策略,该方法在保持轻量级的同时实现了卓越的分割性能。
这项工作不仅推进了Vision Mamba在计算机视觉领域的应用,也为实际的结构健康监测提供了一个可靠的技术解决方案。随着边缘计算和物联网技术的发展,像SCSegamba这样的轻量级高精度模型将在智能基础设施维护中发挥越来越重要的作用。
对于从事计算机视觉、结构工程或相关领域的研究人员和工程师来说,这项工作提供了宝贵的技术参考和实践指导,值得深入学习和借鉴。