Resilient Multimodal Industrial Surface Defect Detection with Uncertain Sensors Availability
作者: Shuai Jiang, Yunfeng Ma, Jingyu Zhou, Yuan Bian, Yaonan Wang, Min Liu
分类: cs.CV
发布日期: 2025-09-03
备注: Accepted to IEEE/ASME Transactions on Mechatronics
期刊: IEEE/ASME Transactions on Mechatronics, 2025
DOI: 10.1109/TMECH.2025.3607147
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种鲁棒的多模态工业表面缺陷检测方法,解决传感器可用性不确定问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 工业表面缺陷检测 模态缺失 跨模态提示学习 对比学习 鲁棒性 传感器可用性
📋 核心要点
- 现有MISDD方法难以应对工业环境中传感器可用性不确定导致的模态缺失问题,影响检测精度。
- 提出跨模态提示学习和对称对比学习,利用文本模态弥补信息缺失,增强模型在模态缺失情况下的鲁棒性。
- 实验结果表明,该方法在不同缺失率和缺失类型下均优于现有方法,显著提升了缺陷检测的准确率。
📝 摘要(中文)
本文提出了一种鲁棒的多模态工业表面缺陷检测(MISDD)方法,旨在解决由传感器可用性不确定性引起的模态缺失问题。针对RGB和3D模态融合时遇到的模式转换和信息缺失等问题,首先提出了跨模态提示学习,包括:i) 跨模态一致性提示,用于建立双视觉模态的信息一致性;ii) 模态特定提示,用于适应不同的输入模式;iii) 缺失感知提示,用于补偿由动态模态缺失引起的信息空缺。此外,提出了对称对比学习,利用文本模态作为双视觉模态融合的桥梁。具体而言,设计了配对的反义文本提示来生成二元文本语义,并提供了三模态对比预训练来完成多模态学习。实验结果表明,在RGB和3D模态总缺失率为0.7的情况下,该方法实现了73.83%的I-AUROC和93.05%的P-AUROC(分别超过现有最佳方法3.84%和5.58%),并且在不同的缺失类型和比率下,优于现有方法。
🔬 方法详解
问题定义:论文旨在解决多模态工业表面缺陷检测(MISDD)中,由于传感器可用性不确定导致的模态缺失问题。现有的多模态融合方法在模态缺失的情况下,性能会显著下降,无法保证工业应用中的鲁棒性和可靠性。现有方法难以有效处理不同模态之间的信息差异,以及模态缺失带来的信息空缺,导致检测精度降低。
核心思路:论文的核心思路是利用跨模态提示学习和对称对比学习,增强模型在模态缺失情况下的鲁棒性。通过跨模态提示学习,建立不同视觉模态之间的一致性,并适应不同的输入模式。利用文本模态作为桥梁,通过对称对比学习,将视觉模态的信息与文本语义对齐,从而弥补模态缺失带来的信息空缺。
技术框架:整体框架包含三个主要部分:跨模态提示学习模块、对称对比学习模块和缺陷检测模块。首先,跨模态提示学习模块利用跨模态一致性提示、模态特定提示和缺失感知提示,对RGB和3D模态进行特征提取和信息补偿。然后,对称对比学习模块利用文本模态作为桥梁,通过对比学习将视觉模态的信息与文本语义对齐。最后,缺陷检测模块利用融合后的多模态特征进行缺陷检测和定位。
关键创新:论文的关键创新在于提出了跨模态提示学习和对称对比学习,有效地解决了模态缺失问题。跨模态提示学习能够建立不同视觉模态之间的一致性,并适应不同的输入模式,弥补模态缺失带来的信息空缺。对称对比学习利用文本模态作为桥梁,将视觉模态的信息与文本语义对齐,进一步增强了模型的鲁棒性。与现有方法相比,该方法能够更好地处理模态缺失情况下的信息差异和信息空缺,从而提高缺陷检测的准确率。
关键设计:跨模态一致性提示通过最小化不同模态特征之间的距离,建立信息一致性。模态特定提示通过添加可学习的参数,适应不同的输入模式。缺失感知提示通过引入掩码向量,补偿模态缺失带来的信息空缺。对称对比学习使用配对的反义文本提示生成二元文本语义,并通过三模态对比损失函数,将视觉模态的信息与文本语义对齐。损失函数包括对比损失和交叉熵损失,用于优化模型的参数。
📊 实验亮点
实验结果表明,在RGB和3D模态总缺失率为0.7的情况下,该方法实现了73.83%的I-AUROC和93.05%的P-AUROC,分别超过现有最佳方法3.84%和5.58%。在不同的缺失类型和比率下,该方法均优于现有方法,证明了其在模态缺失情况下的鲁棒性和有效性。
🎯 应用场景
该研究成果可应用于各种工业产品的表面缺陷检测,例如金属、塑料、纺织品等。通过提高在传感器可用性不确定情况下的检测精度,可以降低误检率和漏检率,提高产品质量和生产效率,减少资源浪费。未来,该方法可以扩展到其他多模态融合任务中,例如医学图像分析、自动驾驶等。
📄 摘要(原文)
Multimodal industrial surface defect detection (MISDD) aims to identify and locate defect in industrial products by fusing RGB and 3D modalities. This article focuses on modality-missing problems caused by uncertain sensors availability in MISDD. In this context, the fusion of multiple modalities encounters several troubles, including learning mode transformation and information vacancy. To this end, we first propose cross-modal prompt learning, which includes: i) the cross-modal consistency prompt serves the establishment of information consistency of dual visual modalities; ii) the modality-specific prompt is inserted to adapt different input patterns; iii) the missing-aware prompt is attached to compensate for the information vacancy caused by dynamic modalities-missing. In addition, we propose symmetric contrastive learning, which utilizes text modality as a bridge for fusion of dual vision modalities. Specifically, a paired antithetical text prompt is designed to generate binary text semantics, and triple-modal contrastive pre-training is offered to accomplish multimodal learning. Experiment results show that our proposed method achieves 73.83% I-AUROC and 93.05% P-AUROC with a total missing rate 0.7 for RGB and 3D modalities (exceeding state-of-the-art methods 3.84% and 5.58% respectively), and outperforms existing approaches to varying degrees under different missing types and rates. The source code will be available at https://github.com/SvyJ/MISDD-MM.