Mine-JEPA: In-Domain Self-Supervised Learning for Mine-Like Object Classification in Side-Scan Sonar

作者: Taeyoun Kwon, Youngwon Choi, Hyeonyu Kim, Myeongkyun Cho, Junhyeok Choi, Moon Hwan Kim

分类: cs.CV

发布日期: 2026-04-01

备注: 9 pages, 3 figures, 6 tables. Accepted at CVPR 2026 MACVi Workshop

💡 一句话要点

Mine-JEPA：用于侧扫声呐水雷目标分类的域内自监督学习

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 侧扫声呐 自监督学习 水雷分类 域内学习 SIGReg

📋 核心要点

侧扫声呐图像数据稀缺，且与自然图像领域差异大，现有方法难以有效进行水雷目标分类。
Mine-JEPA利用SIGReg损失，在少量未标记声呐图像上进行域内自监督预训练，提升模型性能。
实验表明，Mine-JEPA在水雷分类任务中优于微调的DINOv3，且参数量更少，更适合资源受限场景。

📝 摘要（中文）

侧扫声呐(SSS)水雷分类是一个具有挑战性的海洋视觉问题，其特点是数据极度稀缺以及与自然图像存在巨大的领域差距。虽然自监督学习(SSL)和通用视觉基础模型在通用视觉和一些专门领域表现出强大的性能，但它们在SSS中的应用在很大程度上仍未被探索。我们提出了Mine-JEPA，这是第一个用于SSS水雷分类的域内SSL流程，使用SIGReg（一种基于正则化的SSL损失）仅在1170张未标记的声呐图像上进行预训练。在二元水雷与非水雷的分类设置中，Mine-JEPA实现了0.935的F1分数，优于在17亿张图像上预训练的基础模型DINOv3（0.922）。对于三类水雷类目标分类，Mine-JEPA通过合成数据增强达到了0.820，再次优于微调的DINOv3（0.810）。我们进一步观察到，将域内SSL应用于基础模型会使性能降低10-13个百分点，这表明更强大的预训练模型并不总是能从额外的领域自适应中受益。此外，具有紧凑型ViT-Tiny主干网络的Mine-JEPA实现了具有竞争力的性能，同时使用的参数比DINOv3少4倍。这些结果表明，在数据稀缺的海洋声呐图像中，精心设计的域内自监督学习是远大于基础模型的可行替代方案。

🔬 方法详解

问题定义：论文旨在解决侧扫声呐图像中水雷目标的分类问题。现有方法在数据稀缺和领域差异大的情况下表现不佳，无法充分利用未标记的声呐数据进行模型训练。

核心思路：论文的核心思路是利用自监督学习(SSL)在目标领域（侧扫声呐图像）上进行预训练，从而使模型能够更好地学习到声呐图像的特征表示，提高在下游分类任务中的性能。通过域内预训练，模型可以更好地适应声呐图像的特性，克服领域差异带来的挑战。

技术框架：Mine-JEPA的整体框架包括以下步骤：1) 使用少量未标记的侧扫声呐图像数据集。2) 使用SIGReg损失函数进行自监督预训练。3) 在预训练后的模型上进行微调，以适应特定的水雷分类任务。SIGReg损失函数是一种基于正则化的SSL损失，旨在提高模型学习到的特征表示的鲁棒性和泛化能力。

关键创新：论文的关键创新在于提出了Mine-JEPA，这是第一个专门针对侧扫声呐图像水雷分类的域内自监督学习流程。与直接使用在自然图像上预训练的基础模型相比，Mine-JEPA能够更好地适应声呐图像的特性，从而提高分类性能。此外，论文还发现，将域内SSL应用于已经很强大的基础模型反而会降低性能，这表明在某些情况下，针对特定领域的自监督学习可能比直接使用通用基础模型更有效。

关键设计：论文使用了SIGReg作为自监督学习的损失函数，该损失函数通过正则化来提高模型学习到的特征表示的鲁棒性。此外，论文还使用了ViT-Tiny作为模型的主干网络，这是一种轻量级的Transformer模型，可以在保证性能的同时减少计算量。在实验中，论文使用了1170张未标记的声呐图像进行预训练，并在二元和三元水雷分类任务上进行了评估。

🖼️ 关键图片

📊 实验亮点

Mine-JEPA在二元水雷分类中F1值达到0.935，超越了在17亿图像上预训练的DINOv3(0.922)。在三类水雷目标分类中，Mine-JEPA通过数据增强达到0.820，同样优于DINOv3(0.810)。同时，Mine-JEPA使用ViT-Tiny主干网络，参数量仅为DINOv3的四分之一，实现了性能与效率的平衡。

🎯 应用场景

该研究成果可应用于水下安全、海洋资源勘探、港口安全等领域。通过提高水雷等水下目标的检测和分类精度，可以有效降低水下安全风险，提升海洋作业效率。未来，该方法有望推广到其他海洋图像分析任务中，例如海底地形测绘、海洋生物识别等。

📄 摘要（原文）

Side-scan sonar (SSS) mine classification is a challenging maritime vision problem characterized by extreme data scarcity and a large domain gap from natural images. While self-supervised learning (SSL) and general-purpose vision foundation models have shown strong performance in general vision and several specialized domains, their use in SSS remains largely unexplored. We present Mine-JEPA, the first in-domain SSL pipeline for SSS mine classification, using SIGReg, a regularization-based SSL loss, to pretrain on only 1,170 unlabeled sonar images. In the binary mine vs. non-mine setting, Mine-JEPA achieves an F1 score of 0.935, outperforming fine-tuned DINOv3 (0.922), a foundation model pretrained on 1.7B images. For 3-class mine-like object classification, Mine-JEPA reaches 0.820 with synthetic data augmentation, again outperforming fine-tuned DINOv3 (0.810). We further observe that applying in-domain SSL to foundation models degrades performance by 10--13 percentage points, suggesting that stronger pretrained models do not always benefit from additional domain adaptation. In addition, Mine-JEPA with a compact ViT-Tiny backbone achieves competitive performance while using 4x fewer parameters than DINOv3. These results suggest that carefully designed in-domain self-supervised learning is a viable alternative to much larger foundation models in data-scarce maritime sonar imagery.

Mine-JEPA: In-Domain Self-Supervised Learning for Mine-Like Object Classification in Side-Scan Sonar

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理