Rethinking Random Masking in Self-Distillation on ViT

📄 arXiv: 2506.10582v3 📥 PDF

作者: Jihyeon Seong, Hyunkyung Han

分类: cs.CV

发布日期: 2025-06-12 (更新: 2025-09-10)

备注: 4 pages


💡 一句话要点

提出改进随机掩码策略以增强ViT自蒸馏性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉变换器 自蒸馏 随机掩码 多视图增强 图像分类 深度学习

📋 核心要点

  1. 现有自蒸馏方法在随机掩码使用上存在无差别的缺陷,可能导致关键信息的丢失。
  2. 本文提出了一种新的掩码策略,仅对学生的全局视图应用随机掩码,保留其他视图不变,以增强训练效果。
  3. 实验结果显示,采用这种不对称的掩码策略后,模型在mini-ImageNet数据集上的下游任务性能显著提升。

📝 摘要(中文)

视觉变换器(ViTs)在多种视觉任务中表现出色,尤其是自蒸馏框架如DINO对这些进展贡献显著。然而,随机掩码的无差别使用可能会消除关键的语义信息。本文探讨了在自蒸馏设置中随机掩码的作用,提出仅对学生的全局视图应用随机掩码,同时保留学生的局部视图和教师的全局视图。通过这种设计,利用DINO的多视图增强方案,保持干净的监督信号,同时通过掩码输入增强鲁棒性。实验结果表明,在这种不对称设置下的随机掩码能够产生更鲁棒且细致的注意力图,从而提升下游任务性能。

🔬 方法详解

问题定义:本文旨在解决自蒸馏框架中随机掩码的无差别使用所导致的关键信息丢失问题。现有方法在随机掩码的应用上缺乏针对性,影响了模型的学习效果。

核心思路:论文提出了一种改进的随机掩码策略,专门对学生的全局视图应用掩码,而保留学生的局部视图和教师的全局视图。这种设计旨在保持语义信息的完整性,同时通过掩码输入增强模型的鲁棒性。

技术框架:整体架构基于DINO框架,包含学生和教师模型。学生模型通过多视图增强技术进行训练,其中全局视图应用随机掩码,局部视图和教师视图保持原样。

关键创新:最重要的创新在于提出了不对称的随机掩码策略,这与现有方法的无差别掩码使用形成鲜明对比,能够有效保留关键信息。

关键设计:在参数设置上,随机掩码的比例和应用方式经过精心设计,以确保学生模型在训练过程中能够获得足够的监督信号。损失函数采用标准的自蒸馏损失,结合掩码输入进行优化。

📊 实验亮点

实验结果表明,在mini-ImageNet数据集上,采用不对称随机掩码策略的DINO-Tiny模型相比于基线模型在下游任务性能上有显著提升,具体表现为更鲁棒的注意力图和更高的分类准确率。

🎯 应用场景

该研究的潜在应用领域包括计算机视觉中的图像分类、目标检测和图像分割等任务。通过改进的自蒸馏策略,模型在处理复杂视觉任务时能够更好地保持语义信息,提升整体性能,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Vision Transformers (ViTs) have demonstrated remarkable performance across a wide range of vision tasks. In particular, self-distillation frameworks such as DINO have contributed significantly to these advances. Within such frameworks, random masking is often utilized to improve training efficiency and introduce regularization. However, recent studies have raised concerns that indiscriminate random masking may inadvertently eliminate critical semantic information, motivating the development of more informed masking strategies. In this study, we explore the role of random masking in the self-distillation setting, focusing on the DINO framework. Specifically, we apply random masking exclusively to the student's global view, while preserving the student's local views and the teacher's global view in their original, unmasked forms. This design leverages DINO's multi-view augmentation scheme to retain clean supervision while inducing robustness through masked inputs. We evaluate our approach using DINO-Tiny on the mini-ImageNet dataset and show that random masking under this asymmetric setup yields more robust and fine-grained attention maps, ultimately enhancing downstream performance.