DRL-Guided Neural Batch Sampling for Semi-Supervised Pixel-Level Anomaly Detection
作者: Amirhossein Khadivi Noghredeh, Abdollah Safari, Fatemeh Ziaeetabar, Firoozeh Haghighi
分类: cs.CV
发布日期: 2025-11-25
💡 一句话要点
提出基于DRL引导的神经批量采样半监督像素级异常检测方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)
关键词: 异常检测 半监督学习 深度强化学习 工业视觉检测 像素级分割
📋 核心要点
- 工业异常检测面临缺陷样本稀缺难题,现有无监督重建方法易过拟合,难以检测细微缺陷。
- 提出基于深度强化学习的半监督框架,通过RL采样器自适应选择信息丰富的图像块,平衡探索与利用。
- 实验表明,该方法在MVTec AD数据集上优于现有方法,在F1_max和AUC指标上均有显著提升。
📝 摘要(中文)
工业视觉检测中的异常检测由于缺陷样本的稀缺性而具有挑战性。现有方法大多依赖于仅使用正常数据的无监督重建,这通常导致过拟合和对细微缺陷的检测效果不佳。我们提出了一种半监督深度强化学习框架,该框架集成了神经批量采样器、自编码器和预测器。基于RL的采样器通过复合奖励平衡探索和利用,自适应地选择信息丰富的图像块。自编码器生成突出显示异常区域的损失分布图,而预测器在损失分布图空间中执行分割。这种交互使系统能够有效地学习正常和缺陷模式,且仅需有限的标注数据。在MVTec AD数据集上的实验表明,我们的方法比最新的方法实现了更高的精度和更好的细微异常定位,同时保持了较低的复杂度,在F1_max中平均提高了0.15,在AUC中平均提高了0.06,在最佳情况下F1_max中最大增益为0.37。
🔬 方法详解
问题定义:工业视觉检测中,异常检测任务面临着缺陷样本稀缺的挑战。现有方法主要依赖于无监督的重建方法,仅使用正常数据进行训练,容易导致模型过拟合正常样本,从而难以检测出细微的异常。
核心思路:论文的核心思路是利用深度强化学习(DRL)来指导样本的选择,从而更有效地利用有限的标注数据。通过一个基于RL的采样器,自适应地选择信息量大的图像块进行训练,平衡了对正常样本的探索和对异常样本的利用。这种方法旨在使模型能够更好地学习正常和异常模式,从而提高异常检测的准确性和定位能力。
技术框架:该框架包含三个主要模块:神经批量采样器、自编码器和预测器。首先,RL采样器根据当前模型的状态,选择一批图像块。然后,自编码器对这些图像块进行重建,生成损失分布图,该图突出显示了异常区域。最后,预测器在损失分布图空间中执行分割,以识别异常像素。整个框架通过一个复合奖励函数进行训练,该函数鼓励采样器选择能够提高异常检测性能的图像块。
关键创新:该方法最重要的创新点在于使用深度强化学习来指导样本的选择。传统的异常检测方法通常采用随机采样或基于启发式的采样策略,这些策略可能无法有效地利用有限的标注数据。通过使用RL,该方法能够自适应地学习最佳的采样策略,从而更有效地训练模型。
关键设计:RL采样器使用深度神经网络作为策略网络,输入是当前模型的状态(例如,自编码器的重建误差),输出是每个图像块被选择的概率。奖励函数由两部分组成:一部分是基于自编码器的重建误差,另一部分是基于预测器的分割性能。自编码器使用卷积神经网络,预测器使用全卷积网络。损失函数包括重建损失和分割损失。
📊 实验亮点
该方法在MVTec AD数据集上取得了显著的性能提升,相较于现有方法,在F1_max指标上平均提高了0.15,在AUC指标上平均提高了0.06,在最佳情况下F1_max指标上最大增益达到了0.37。这些结果表明,该方法能够更准确地检测和定位细微的异常,并且具有较低的复杂度。
🎯 应用场景
该研究成果可应用于工业制造中的产品质量检测,例如检测电子元件、纺织品、金属零件等表面的缺陷。通过提高异常检测的准确性和效率,可以减少次品率,提高生产效率,降低生产成本。此外,该方法还可以扩展到其他领域的异常检测任务,例如医疗图像分析、安全监控等。
📄 摘要(原文)
Anomaly detection in industrial visual inspection is challenging due to the scarcity of defective samples. Most existing methods rely on unsupervised reconstruction using only normal data, often resulting in overfitting and poor detection of subtle defects. We propose a semi-supervised deep reinforcement learning framework that integrates a neural batch sampler, an autoencoder, and a predictor. The RL-based sampler adaptively selects informative patches by balancing exploration and exploitation through a composite reward. The autoencoder generates loss profiles highlighting abnormal regions, while the predictor performs segmentation in the loss-profile space. This interaction enables the system to effectively learn both normal and defective patterns with limited labeled data. Experiments on the MVTec AD dataset demonstrate that our method achieves higher accuracy and better localization of subtle anomalies than recent state-of-the-art approaches while maintaining low complexity, yielding an average improvement of 0.15 in F1_max and 0.06 in AUC, with a maximum gain of 0.37 in F1_max in the best case.