CrackSegFlow: Controllable Flow-Matching Synthesis for Generalizable Crack Segmentation with the CSF-50K Benchmark

📄 arXiv: 2601.03637v1 📥 PDF

作者: Babak Asadi, Peiyang Wu, Mani Golparvar-Fard, Ramez Hajj

分类: cs.CV

发布日期: 2026-01-07


💡 一句话要点

提出CrackSegFlow,结合CSF-50K基准,提升裂缝分割的泛化性和可控性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 裂缝分割 流匹配 数据合成 领域泛化 深度学习

📋 核心要点

  1. 现有裂缝分割方法缺乏像素级标注数据,且在不同传感器、光照和纹理下存在严重的领域偏移问题。
  2. CrackSegFlow通过可控的流匹配合成框架,生成逼真的裂缝图像,并显式控制裂缝覆盖率,实现数据增强。
  3. 实验表明,CrackSegFlow在多个基准测试中显著提升了裂缝分割的性能,尤其在跨域场景下提升明显。

📝 摘要(中文)

本文提出CrackSegFlow,一个可控的流匹配合成框架,用于生成逼真的裂缝图像,该图像以二值掩码为条件,同时保持严格的掩码-图像对齐。该生成器结合了保持拓扑结构的掩码注入和边界门控调制,以维持细结构的连续性并抑制纹理驱动的假阳性。第二个类条件流匹配模型合成裂缝掩码,可以显式控制裂缝覆盖率,从而实现平衡的、拓扑结构多样的配对数据,而无需额外的人工标注。我们进一步将裂缝掩码注入到无裂缝背景中,以多样化光照和表面伪影,并减少由阴影、接缝和路面标记引起的假阳性。在涵盖四个沥青数据集和一个混凝土领域数据集的五个基准上的实验表明,在已建立的混合CNN-Transformer分割骨干网络和固定的训练协议下,性能得到了一致的提高。通过真实数据和合成数据的结合,域内性能平均提高了5.37 mIoU和5.13 F1,并且仅使用有限的目标掩码统计信息,目标引导的跨域合成产生了平均13.12 mIoU和14.82 F1的增益。与基于扩散的语义合成相比,CrackSegFlow提供了明显更快的确定性采样,并提高了细结构裂缝几何的保真度和掩码-图像对齐。最后,我们发布了CSF-50K,一个包含50,000个配对裂缝图像和像素精确掩码的公共数据集,用于大规模基准测试可泛化的裂缝分割。

🔬 方法详解

问题定义:现有的裂缝分割方法在实际部署中受到限制,主要原因是缺乏足够的像素级标注数据,以及在不同传感器、光照条件、纹理和标注规范下存在严重的领域偏移。现有方法难以在各种复杂场景下实现准确和鲁棒的裂缝分割。

核心思路:CrackSegFlow的核心思路是利用可控的流匹配模型合成逼真的裂缝图像,从而解决数据稀缺和领域偏移问题。通过控制裂缝的覆盖率、拓扑结构和背景环境,生成多样化的训练数据,提高模型的泛化能力。

技术框架:CrackSegFlow包含两个主要的流匹配模型:一个是图像生成模型,用于生成逼真的裂缝图像,以二值掩码为条件;另一个是掩码生成模型,用于合成具有不同覆盖率和拓扑结构的裂缝掩码。此外,该框架还包括一个掩码注入模块,用于将裂缝掩码注入到无裂缝的背景图像中,以增加数据的多样性。整体流程是先生成裂缝掩码,然后将其注入到背景图像中,最后使用图像生成模型生成最终的裂缝图像。

关键创新:CrackSegFlow的关键创新在于其可控的流匹配合成框架,能够显式地控制裂缝的覆盖率和拓扑结构,从而生成多样化的训练数据。此外,该框架还采用了拓扑保持的掩码注入和边界门控调制技术,以维持细结构的连续性并抑制纹理驱动的假阳性。与基于扩散的语义合成方法相比,CrackSegFlow具有更快的确定性采样速度,并提高了细结构裂缝几何的保真度和掩码-图像对齐。

关键设计:CrackSegFlow的关键设计包括:(1) 拓扑保持的掩码注入,确保生成的裂缝图像具有连续的结构;(2) 边界门控调制,抑制由纹理引起的假阳性;(3) 类条件流匹配模型,用于控制裂缝的覆盖率和拓扑结构;(4) 掩码注入模块,用于将裂缝掩码注入到无裂缝的背景图像中,以增加数据的多样性。具体的参数设置和网络结构细节在论文中进行了详细描述,但此处未知。

📊 实验亮点

实验结果表明,CrackSegFlow在五个基准测试中均取得了显著的性能提升。在域内性能方面,平均提高了5.37 mIoU和5.13 F1。在目标引导的跨域合成方面,仅使用有限的目标掩码统计信息,就产生了平均13.12 mIoU和14.82 F1的增益。此外,CrackSegFlow还提供了比基于扩散的语义合成方法更快的确定性采样速度和更高的图像保真度。

🎯 应用场景

CrackSegFlow在道路、桥梁、隧道等基础设施的自动化裂缝检测与评估方面具有广泛的应用前景。通过生成大量带标注的合成数据,可以有效解决实际应用中数据稀缺和领域偏移的问题,提高裂缝分割模型的准确性和鲁棒性,从而实现更高效、更可靠的基础设施健康监测。

📄 摘要(原文)

Automated crack segmentation is essential for scalable condition assessment of pavements and civil infrastructure, yet practical deployment is limited by scarce pixel-level labels and severe domain shift across sensors, illumination, textures, and annotation conventions. This paper presents CrackSegFlow, a controllable flow-matching synthesis framework that generates photorealistic crack images conditioned on binary masks while preserving strict mask-image alignment. The generator combines topology-preserving mask injection with boundary-gated modulation to maintain thin-structure continuity and suppress texture-driven false positives. A second class-conditional flow-matching model synthesizes crack masks with explicit control over crack coverage, enabling balanced, topology-diverse paired data without additional manual annotation. We further inject crack masks into crack-free backgrounds to diversify illumination and surface artifacts and reduce false positives caused by shadows, joints, and pavement markings. Experiments on five benchmarks spanning four asphalt datasets and the crack class of a concrete-domain dataset demonstrate consistent improvements under an established hybrid CNN--Transformer segmentation backbone and a fixed training protocol. With real plus synthesized pairs, in-domain performance improves on average by 5.37 mIoU and 5.13 F1, and target-guided cross-domain synthesis yields average gains of 13.12 mIoU and 14.82 F1 using only limited target mask statistics. Compared with diffusion-based semantic synthesis, CrackSegFlow provides substantially faster deterministic sampling and improves fidelity and mask-image alignment for thin-structure crack geometry. Finally, we release CSF-50K, a public dataset of 50,000 paired crack images and pixel-accurate masks for large-scale benchmarking of generalizable crack segmentation.