Mine-JEPA: In-Domain Self-Supervised Learning for Mine-Like Object Classification in Side-Scan Sonar
作者: Taeyoun Kwon, Youngwon Choi, Hyeonyu Kim, Myeongkyun Cho, Junhyeok Choi, Moon Hwan Kim
分类: cs.CV
发布日期: 2026-04-01
备注: 9 pages, 3 figures, 6 tables. Accepted at CVPR 2026 MACVi Workshop
💡 一句话要点
Mine-JEPA:用于侧扫声呐水雷目标分类的域内自监督学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 侧扫声呐 自监督学习 水雷分类 域内学习 SIGReg
📋 核心要点
- 侧扫声呐图像数据稀缺,且与自然图像领域差异大,现有方法难以有效进行水雷目标分类。
- Mine-JEPA利用SIGReg损失,在少量未标记声呐图像上进行域内自监督预训练,提升模型性能。
- 实验表明,Mine-JEPA在水雷分类任务中优于微调的DINOv3,且参数量更少,更适合资源受限场景。
📝 摘要(中文)
侧扫声呐(SSS)水雷分类是一个具有挑战性的海洋视觉问题,其特点是数据极度稀缺以及与自然图像存在巨大的领域差距。虽然自监督学习(SSL)和通用视觉基础模型在通用视觉和一些专门领域表现出强大的性能,但它们在SSS中的应用在很大程度上仍未被探索。我们提出了Mine-JEPA,这是第一个用于SSS水雷分类的域内SSL流程,使用SIGReg(一种基于正则化的SSL损失)仅在1170张未标记的声呐图像上进行预训练。在二元水雷与非水雷的分类设置中,Mine-JEPA实现了0.935的F1分数,优于在17亿张图像上预训练的基础模型DINOv3(0.922)。对于三类水雷类目标分类,Mine-JEPA通过合成数据增强达到了0.820,再次优于微调的DINOv3(0.810)。我们进一步观察到,将域内SSL应用于基础模型会使性能降低10-13个百分点,这表明更强大的预训练模型并不总是能从额外的领域自适应中受益。此外,具有紧凑型ViT-Tiny主干网络的Mine-JEPA实现了具有竞争力的性能,同时使用的参数比DINOv3少4倍。这些结果表明,在数据稀缺的海洋声呐图像中,精心设计的域内自监督学习是远大于基础模型的可行替代方案。
🔬 方法详解
问题定义:论文旨在解决侧扫声呐图像中水雷目标的分类问题。现有方法在数据稀缺和领域差异大的情况下表现不佳,无法充分利用未标记的声呐数据进行模型训练。
核心思路:论文的核心思路是利用自监督学习(SSL)在目标领域(侧扫声呐图像)上进行预训练,从而使模型能够更好地学习到声呐图像的特征表示,提高在下游分类任务中的性能。通过域内预训练,模型可以更好地适应声呐图像的特性,克服领域差异带来的挑战。
技术框架:Mine-JEPA的整体框架包括以下步骤:1) 使用少量未标记的侧扫声呐图像数据集。2) 使用SIGReg损失函数进行自监督预训练。3) 在预训练后的模型上进行微调,以适应特定的水雷分类任务。SIGReg损失函数是一种基于正则化的SSL损失,旨在提高模型学习到的特征表示的鲁棒性和泛化能力。
关键创新:论文的关键创新在于提出了Mine-JEPA,这是第一个专门针对侧扫声呐图像水雷分类的域内自监督学习流程。与直接使用在自然图像上预训练的基础模型相比,Mine-JEPA能够更好地适应声呐图像的特性,从而提高分类性能。此外,论文还发现,将域内SSL应用于已经很强大的基础模型反而会降低性能,这表明在某些情况下,针对特定领域的自监督学习可能比直接使用通用基础模型更有效。
关键设计:论文使用了SIGReg作为自监督学习的损失函数,该损失函数通过正则化来提高模型学习到的特征表示的鲁棒性。此外,论文还使用了ViT-Tiny作为模型的主干网络,这是一种轻量级的Transformer模型,可以在保证性能的同时减少计算量。在实验中,论文使用了1170张未标记的声呐图像进行预训练,并在二元和三元水雷分类任务上进行了评估。
🖼️ 关键图片
📊 实验亮点
Mine-JEPA在二元水雷分类中F1值达到0.935,超越了在17亿图像上预训练的DINOv3(0.922)。在三类水雷目标分类中,Mine-JEPA通过数据增强达到0.820,同样优于DINOv3(0.810)。同时,Mine-JEPA使用ViT-Tiny主干网络,参数量仅为DINOv3的四分之一,实现了性能与效率的平衡。
🎯 应用场景
该研究成果可应用于水下安全、海洋资源勘探、港口安全等领域。通过提高水雷等水下目标的检测和分类精度,可以有效降低水下安全风险,提升海洋作业效率。未来,该方法有望推广到其他海洋图像分析任务中,例如海底地形测绘、海洋生物识别等。
📄 摘要(原文)
Side-scan sonar (SSS) mine classification is a challenging maritime vision problem characterized by extreme data scarcity and a large domain gap from natural images. While self-supervised learning (SSL) and general-purpose vision foundation models have shown strong performance in general vision and several specialized domains, their use in SSS remains largely unexplored. We present Mine-JEPA, the first in-domain SSL pipeline for SSS mine classification, using SIGReg, a regularization-based SSL loss, to pretrain on only 1,170 unlabeled sonar images. In the binary mine vs. non-mine setting, Mine-JEPA achieves an F1 score of 0.935, outperforming fine-tuned DINOv3 (0.922), a foundation model pretrained on 1.7B images. For 3-class mine-like object classification, Mine-JEPA reaches 0.820 with synthetic data augmentation, again outperforming fine-tuned DINOv3 (0.810). We further observe that applying in-domain SSL to foundation models degrades performance by 10--13 percentage points, suggesting that stronger pretrained models do not always benefit from additional domain adaptation. In addition, Mine-JEPA with a compact ViT-Tiny backbone achieves competitive performance while using 4x fewer parameters than DINOv3. These results suggest that carefully designed in-domain self-supervised learning is a viable alternative to much larger foundation models in data-scarce maritime sonar imagery.