Fine-tuning vision foundation model for crack segmentation in civil infrastructures

作者: Kang Ge, Chen Wang, Yutao Guo, Yansong Tang, Zhenzhong Hu, Hongbing Chen

分类: cs.CV

发布日期: 2023-12-07 (更新: 2024-04-23)

💡 一句话要点

微调视觉基础模型CrackSAM，用于土木基础设施裂缝分割

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 裂缝分割 视觉基础模型 参数高效微调 Segment Anything Model 土木工程 零样本学习 Adapter LoRA

📋 核心要点

现有AI模型在土木工程领域应用受限，难以有效处理复杂环境下的裂缝分割任务。
提出CrackSAM，通过参数高效微调策略，将视觉基础模型SAM应用于裂缝分割。
实验表明，CrackSAM在各种复杂场景下，零样本性能远超现有语义分割模型。

📝 摘要（中文）

大规模基础模型已成为深度学习的主流方法，但在土木工程领域，AI模型的规模受到严格限制。本文引入视觉基础模型用于裂缝分割，并采用两种参数高效的微调方法：Adapter和低秩自适应(LoRA)来微调语义分割的基础模型Segment Anything Model (SAM)。微调后的CrackSAM在不同的场景和材料上表现出优异的性能。为了测试该方法的零样本性能，收集、标注并开源了两个与道路和外墙裂缝相关的独特数据集，共计810张图像。与十二个成熟的语义分割模型进行了对比实验。在具有人工噪声的数据集和先前未见的数据集上，CrackSAM的性能远远超过了所有最先进的模型。CrackSAM表现出卓越的优越性，尤其是在诸如光线昏暗、阴影、道路标记、施工缝和其他干扰因素等具有挑战性的条件下。这些跨场景的结果证明了基础模型出色的零样本能力，并为开发土木工程领域的视觉模型提供了新的思路。

🔬 方法详解

问题定义：论文旨在解决土木基础设施中裂缝的自动分割问题。现有方法，特别是传统的语义分割模型，在复杂的光照条件、噪声干扰以及不同材料表面上的裂缝分割任务中表现不佳，泛化能力弱。此外，在土木工程领域，标注大规模数据集的成本很高，限制了深度学习模型的训练效果。

核心思路：论文的核心思路是利用预训练的视觉基础模型SAM强大的泛化能力，通过参数高效的微调方法，使其适应裂缝分割任务。通过少量目标数据的微调，充分利用SAM在海量数据上学习到的通用视觉知识，从而提高模型在特定场景下的分割精度和鲁棒性。

技术框架：CrackSAM的技术框架主要包括以下几个部分：1) 选择Segment Anything Model (SAM)作为基础模型；2) 采用两种参数高效的微调方法：Adapter和Low-Rank Adaptation (LoRA)；3) 使用收集的裂缝数据集对SAM进行微调；4) 在不同场景和材料的数据集上评估CrackSAM的性能。整体流程是先利用预训练的SAM提取图像特征，然后通过微调后的Adapter或LoRA模块调整特征表示，最后进行裂缝分割。

关键创新：论文的关键创新在于将视觉基础模型SAM引入到土木工程领域的裂缝分割任务中，并探索了参数高效的微调方法。与从头开始训练的语义分割模型相比，CrackSAM能够利用SAM预训练的通用视觉知识，从而在少量数据下获得更好的性能。此外，论文提出的CrackSAM在零样本设置下表现出强大的泛化能力，能够处理未见过的场景和材料。

关键设计：在微调过程中，论文采用了Adapter和LoRA两种参数高效的方法。Adapter通过在SAM的Transformer层中插入少量可训练的Adapter模块来调整特征表示，而LoRA则通过学习低秩矩阵来近似原始权重的更新。这两种方法都能够避免对整个SAM模型进行微调，从而降低了计算成本和过拟合的风险。此外，论文还收集并开源了两个包含道路和外墙裂缝的数据集，为后续研究提供了便利。

📊 实验亮点

CrackSAM在人工噪声数据集和未见数据集上的表现远超其他最先进模型，证明了其优越的泛化能力。在具有挑战性的光照、阴影和干扰因素下，CrackSAM依然表现出色。在零样本裂缝分割任务中，CrackSAM的性能显著优于其他语义分割模型，验证了基础模型在土木工程领域的潜力。

🎯 应用场景

该研究成果可应用于桥梁、道路、建筑物等土木基础设施的裂缝检测与评估，实现自动化、智能化的病害诊断。有助于提高检测效率、降低人工成本，并为基础设施的维护和管理提供科学依据。未来可集成到无人机巡检系统或机器人检测平台，实现更广泛的应用。

📄 摘要（原文）

Large-scale foundation models have become the mainstream deep learning method, while in civil engineering, the scale of AI models is strictly limited. In this work, a vision foundation model is introduced for crack segmentation. Two parameter-efficient fine-tuning methods, adapter and low-rank adaptation, are adopted to fine-tune the foundation model in semantic segmentation: the Segment Anything Model (SAM). The fine-tuned CrackSAM shows excellent performance on different scenes and materials. To test the zero-shot performance of the proposed method, two unique datasets related to road and exterior wall cracks are collected, annotated and open-sourced, for a total of 810 images. Comparative experiments are conducted with twelve mature semantic segmentation models. On datasets with artificial noise and previously unseen datasets, the performance of CrackSAM far exceeds that of all state-of-the-art models. CrackSAM exhibits remarkable superiority, particularly under challenging conditions such as dim lighting, shadows, road markings, construction joints, and other interference factors. These cross-scenario results demonstrate the outstanding zero-shot capability of foundation models and provide new ideas for developing vision models in civil engineering.

Fine-tuning vision foundation model for crack segmentation in civil infrastructures

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册