Dynamic Sub-graph Distillation for Robust Semi-supervised Continual Learning

作者: Yan Fan, Yu Wang, Pengfei Zhu, Qinghua Hu

分类: cs.LG, cs.CV

发布日期: 2023-12-27 (更新: 2025-01-14)

期刊: Proceedings of the 38th AAAI Conference on Artificial Intelligence, 2024, 38(11), 11927-11935

DOI: 10.1609/aaai.v38i11.29079

💡 一句话要点

提出动态子图蒸馏（DSGD）方法，解决半监督持续学习中的灾难性遗忘问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 半监督学习 持续学习 知识蒸馏 图神经网络 灾难性遗忘

📋 核心要点

半监督持续学习面临未标记数据分布不可靠导致的训练不稳定和知识退化问题。
提出动态子图蒸馏（DSGD）方法，利用语义和结构信息实现更稳定的知识蒸馏。
在多个数据集上的实验表明，DSGD能有效缓解半监督持续学习中的灾难性遗忘。

📝 摘要（中文）

本文研究半监督持续学习（SSCL）问题，即模型从部分标记且类别未知的增量数据中学习。通过对SSCL的全面分析，发现未标记数据不可靠的分布会导致训练不稳定和学习过程中的知识退化，严重影响SSCL的性能。为了解决这些限制，本文提出了一种新的半监督持续学习方法，称为动态子图蒸馏（DSGD）。该方法利用语义和结构信息，在未标记数据上实现更稳定的知识蒸馏，并对分布偏差表现出鲁棒性。首先，形式化了一个通用的结构蒸馏模型，并为持续学习过程设计了一个动态图构建方法。其次，定义了一个结构蒸馏向量，并设计了一种动态子图蒸馏算法，该算法支持端到端训练，并能适应大规模任务。所提出的方法适用于各种CL方法和监督设置。在CIFAR10、CIFAR100和ImageNet-100三个数据集上进行的大量实验，证明了该方法在半监督持续学习场景中缓解灾难性遗忘问题的有效性。

🔬 方法详解

问题定义：半监督持续学习（SSCL）旨在让模型在只有部分数据带有标签，且类别未知的情况下，逐步学习新的任务。现有的持续学习方法通常需要大量的标记数据，限制了其在实际场景中的应用。此外，未标记数据的分布可能存在偏差，导致模型在学习新任务时，对旧任务的知识产生灾难性遗忘。

核心思路：本文的核心思路是利用图结构来建模数据之间的关系，并在此基础上进行知识蒸馏。通过动态构建子图，可以更有效地利用未标记数据中的信息，并减少分布偏差带来的影响。知识蒸馏过程旨在让模型在学习新任务的同时，保留旧任务的知识，从而缓解灾难性遗忘。

技术框架：DSGD方法主要包含以下几个阶段：1) 动态图构建：根据数据之间的语义和结构关系，动态构建图结构。2) 结构蒸馏向量定义：定义结构蒸馏向量，用于表示节点在图中的结构信息。3) 动态子图蒸馏：基于动态构建的子图和结构蒸馏向量，进行知识蒸馏。整个框架支持端到端训练，并且可以灵活地应用于不同的持续学习方法和监督设置。

关键创新：DSGD的关键创新在于动态子图蒸馏的思想。传统的知识蒸馏方法通常直接在原始数据上进行，而DSGD则通过构建动态子图，更加关注数据之间的关系，从而可以更有效地利用未标记数据中的信息，并减少分布偏差带来的影响。此外，动态图的构建也使得模型可以更好地适应不同的任务。

关键设计：在动态图构建方面，可以使用不同的图神经网络（GNN）来学习节点之间的关系。结构蒸馏向量的设计需要考虑如何有效地表示节点在图中的结构信息，例如可以使用节点的度、中心性等指标。在知识蒸馏过程中，可以使用不同的损失函数来衡量新旧模型之间的差异，例如可以使用KL散度或均方误差。

📊 实验亮点

实验结果表明，在CIFAR10、CIFAR100和ImageNet-100数据集上，DSGD方法在不同的监督比例下，均能有效缓解半监督持续学习中的灾难性遗忘问题，显著优于现有的持续学习方法。具体的性能提升数据未知，但论文强调了其在不同数据集和监督比例下的有效性。

🎯 应用场景

该研究成果可应用于需要持续学习且数据标注成本高的场景，例如智能客服、自动驾驶、医疗诊断等领域。在这些场景中，模型需要不断学习新的知识，同时保留旧的知识，以适应不断变化的环境。半监督持续学习可以降低数据标注的成本，提高模型的泛化能力和鲁棒性。

📄 摘要（原文）

Continual learning (CL) has shown promising results and comparable performance to learning at once in a fully supervised manner. However, CL strategies typically require a large number of labeled samples, making their real-life deployment challenging. In this work, we focus on semi-supervised continual learning (SSCL), where the model progressively learns from partially labeled data with unknown categories. We provide a comprehensive analysis of SSCL and demonstrate that unreliable distributions of unlabeled data lead to unstable training and refinement of the progressing stages. This problem severely impacts the performance of SSCL. To address the limitations, we propose a novel approach called Dynamic Sub-Graph Distillation (DSGD) for semi-supervised continual learning, which leverages both semantic and structural information to achieve more stable knowledge distillation on unlabeled data and exhibit robustness against distribution bias. Firstly, we formalize a general model of structural distillation and design a dynamic graph construction for the continual learning progress. Next, we define a structure distillation vector and design a dynamic sub-graph distillation algorithm, which enables end-to-end training and adaptability to scale up tasks. The entire proposed method is adaptable to various CL methods and supervision settings. Finally, experiments conducted on three datasets CIFAR10, CIFAR100, and ImageNet-100, with varying supervision ratios, demonstrate the effectiveness of our proposed approach in mitigating the catastrophic forgetting problem in semi-supervised continual learning scenarios.

Dynamic Sub-graph Distillation for Robust Semi-supervised Continual Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册