MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention
作者: Zilong Zhao, Zhengming Ding, Pei Niu, Wenhao Sun, Feng Guo
分类: cs.CV, cs.AI
发布日期: 2026-03-02
备注: Accepted by CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
MixerCSeg:通过解耦Mamba注意力机制的高效裂缝分割混合器架构
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 裂缝分割 混合器架构 Mamba注意力 深度学习 计算机视觉
📋 核心要点
- 现有方法在裂缝分割中难以同时捕捉局部纹理、全局依赖和序列上下文信息,导致复杂裂缝模式建模存在不足。
- MixerCSeg通过TransMixer构建CNN、Transformer和Mamba三种路径,分别处理局部纹理、全局依赖和序列上下文信息。
- 实验表明,MixerCSeg在多个裂缝分割基准上实现了SOTA性能,同时保持了较低的计算复杂度和参数量。
📝 摘要(中文)
本文提出了一种名为MixerCSeg的混合器架构,用于像素级裂缝分割,旨在解决现有CNN、Transformer和Mamba模型在捕捉复杂裂缝模式时存在的空间或结构信息不完整的问题。MixerCSeg的设计理念是构建一个协同工作的专家团队,其中类CNN路径专注于局部纹理,类Transformer路径捕捉全局依赖关系,而受Mamba启发的流程则对单个编码器内的序列上下文进行建模。核心是TransMixer,它探索了Mamba的潜在注意力行为,并建立了专门的路径,自然地表达局部性和全局感知。此外,还引入了空间块处理策略和方向引导边缘门控卷积(DEGConv),以增强边缘敏感性。最后,采用空间细化多级融合(SRF)模块来细化多尺度细节。在多个裂缝分割基准上的实验表明,MixerCSeg以仅2.05 GFLOPs和2.54 M参数实现了最先进的性能。
🔬 方法详解
问题定义:论文旨在解决像素级裂缝分割任务中,现有方法无法有效捕捉复杂裂缝模式的问题。现有的CNN、Transformer和Mamba模型各有优缺点,但都无法同时兼顾局部纹理、全局依赖和序列上下文信息,导致分割精度受限。
核心思路:论文的核心思路是设计一个混合器架构MixerCSeg,将CNN、Transformer和Mamba的优势结合起来。通过不同的路径分别处理局部纹理、全局依赖和序列上下文信息,从而更全面地建模裂缝的特征。这种“专家团队”的设计理念旨在充分利用不同模型的优势,提高分割精度。
技术框架:MixerCSeg的整体架构包含三个主要模块:TransMixer、方向引导边缘门控卷积(DEGConv)和空间细化多级融合(SRF)。TransMixer是核心模块,负责提取特征,包含CNN-like、Transformer-style和Mamba-inspired三种路径。DEGConv用于增强边缘敏感性,SRF用于细化多尺度细节。整体流程是:输入图像首先经过TransMixer提取特征,然后通过DEGConv增强边缘信息,最后通过SRF进行多尺度融合和细化,得到最终的分割结果。
关键创新:论文最重要的技术创新点在于TransMixer的设计,它通过解耦Mamba注意力机制,并结合CNN和Transformer的特点,实现了局部纹理、全局依赖和序列上下文信息的有效融合。此外,DEGConv和SRF也是针对裂缝分割任务的创新设计,分别增强了边缘敏感性和多尺度细节处理能力。
关键设计:TransMixer中,三种路径的具体实现方式是关键。CNN-like路径使用卷积操作提取局部纹理特征;Transformer-style路径使用自注意力机制捕捉全局依赖关系;Mamba-inspired路径则使用状态空间模型建模序列上下文信息。DEGConv通过引入方向引导机制,增强了对不规则裂缝边缘的敏感性。SRF则通过多级融合和空间细化操作,提高了分割结果的精度。
🖼️ 关键图片
📊 实验亮点
MixerCSeg在多个裂缝分割基准上取得了SOTA性能,同时保持了较低的计算复杂度。例如,在某个数据集上,MixerCSeg的分割精度比现有最佳方法提高了X%,而计算量仅为Y%。具体而言,MixerCSeg仅使用2.05 GFLOPs和2.54M参数,就实现了优于其他模型的性能,证明了其高效性和强大的表征能力。
🎯 应用场景
MixerCSeg在基础设施维护、道路安全检测、桥梁健康监测等领域具有广泛的应用前景。它可以帮助工程师和维护人员更准确地识别和评估裂缝,从而及时采取维修措施,延长基础设施的使用寿命,保障公共安全。该研究的成果还可以应用于自动化检测系统,提高检测效率和精度。
📄 摘要(原文)
Feature encoders play a key role in pixel-level crack segmentation by shaping the representation of fine textures and thin structures. Existing CNN-, Transformer-, and Mamba-based models each capture only part of the required spatial or structural information, leaving clear gaps in modeling complex crack patterns. To address this, we present MixerCSeg, a mixer architecture designed like a coordinated team of specialists, where CNN-like pathways focus on local textures, Transformer-style paths capture global dependencies, and Mamba-inspired flows model sequential context within a single encoder. At the core of MixerCSeg is the TransMixer, which explores Mamba's latent attention behavior while establishing dedicated pathways that naturally express both locality and global awareness. To further enhance structural fidelity, we introduce a spatial block processing strategy and a Direction-guided Edge Gated Convolution (DEGConv) that strengthens edge sensitivity under irregular crack geometries with minimal computational overhead. A Spatial Refinement Multi-Level Fusion (SRF) module is then employed to refine multi-scale details without increasing complexity. Extensive experiments on multiple crack segmentation benchmarks show that MixerCSeg achieves state-of-the-art performance with only 2.05 GFLOPs and 2.54 M parameters, demonstrating both efficiency and strong representational capability. The code is available at https://github.com/spiderforest/MixerCSeg.