Pushing the Limits of Distillation-Based Continual Learning via Classifier-Proximal Lightweight Plugins

📄 arXiv: 2512.03537 📥 PDF

作者: Zhiming Xu, Baile Xu, Jian Zhao, Furao Shen, Suorong Yang

分类: cs.LG, stat.ML

发布日期: 2026-04-06


💡 一句话要点

提出DLC插件式终身学习框架,解决蒸馏方法中的稳定性-可塑性困境

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 终身学习 持续学习 蒸馏学习 插件式结构 残差学习

📋 核心要点

  1. 基于蒸馏的终身学习方法受限于稳定性-可塑性困境,知识获取和保留通过耦合目标进行优化。
  2. DLC通过在分类器近端层部署轻量级残差插件,实现语义级别的残差校正,最小化对特征提取的干扰。
  3. DLC在大型基准测试中实现了8%的精度提升,参数增加仅为4%,且能与其他终身学习方法结合。

📝 摘要(中文)

本文提出了一种名为Distillation-aware Lightweight Components (DLC) 的插件扩展范式,用于解决基于蒸馏的终身学习方法中存在的稳定性-可塑性困境。DLC将轻量级的残差插件部署到基础特征提取器的分类器近端层,从而实现语义级别的残差校正,提高分类精度,同时最大限度地减少对整体特征提取过程的干扰。在推理过程中,聚合插件增强的表示以产生分类预测。为了减轻来自非目标插件的干扰,进一步引入了一个轻量级的加权单元,学习为不同的插件增强表示分配重要性分数。DLC在大规模基准测试中实现了显著的8%的精度提升,而仅增加了4%的骨干参数,突出了其卓越的效率。此外,DLC与其他即插即用的终身学习增强方法兼容,并在与之结合使用时提供额外的增益。

🔬 方法详解

问题定义:基于蒸馏的终身学习方法需要在不断变化的数据流中持续学习,同时保留先前的知识。现有的蒸馏方法虽然存储开销低,但面临稳定性-可塑性困境,即知识的获取和保留是通过耦合的目标函数进行优化的,这限制了模型的学习能力。现有的改进方法并没有改变这种根本的瓶颈。

核心思路:本文的核心思路是将知识的保留和学习解耦。通过在基础特征提取器的分类器近端层添加轻量级的插件,专门负责新任务的学习,而基础特征提取器则主要负责保留先前的知识。这种解耦的设计使得模型可以在学习新知识的同时,最大限度地减少对先前知识的遗忘。

技术框架:DLC框架主要包含以下几个模块:1) 基础特征提取器:负责提取图像的通用特征;2) 轻量级残差插件:部署在分类器近端层,用于学习特定任务的残差校正;3) 加权单元:学习为不同的插件增强表示分配重要性分数,以减轻来自非目标插件的干扰;4) 分类器:基于插件增强的表示进行分类预测。在训练过程中,每个任务训练一个对应的插件。在推理过程中,将基础特征提取器提取的特征与所有插件的输出进行加权融合,然后输入到分类器中。

关键创新:DLC的关键创新在于其插件式的结构和分类器近端层的位置选择。插件式结构使得新任务的学习不会直接修改基础特征提取器的参数,从而减少了对先前知识的遗忘。选择分类器近端层是因为这一层的特征更具有语义信息,更有利于进行残差校正。此外,轻量级的加权单元可以有效地抑制非目标插件的干扰。

关键设计:插件采用残差结构,以保证训练的稳定性。加权单元采用一个简单的全连接层,输入为所有插件增强的表示,输出为每个插件的权重。损失函数包括蒸馏损失和分类损失。蒸馏损失用于保留先前任务的知识,分类损失用于学习当前任务的知识。参数设置方面,插件的参数量远小于基础特征提取器,以保证模型的效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DLC在大型基准测试中实现了显著的8%的精度提升,而仅增加了4%的骨干参数。与现有的终身学习方法相比,DLC在精度和效率方面都具有优势。此外,DLC与其他即插即用的终身学习增强方法兼容,并在与之结合使用时提供额外的增益,表明其具有良好的可扩展性。

🎯 应用场景

DLC插件式终身学习框架可应用于需要持续学习和知识积累的场景,例如智能客服、自动驾驶、医疗诊断等。该方法能够使模型在不断学习新知识的同时,保持对先前知识的记忆,从而提高模型的泛化能力和鲁棒性。未来,该方法可以进一步扩展到其他模态的数据,例如文本、语音等。

📄 摘要(原文)

Continual learning requires models to learn continuously while preserving prior knowledge under evolving data streams. Distillation-based methods are appealing for retaining past knowledge in a shared single-model framework with low storage overhead. However, they remain constrained by the stability-plasticity dilemma: knowledge acquisition and preservation are still optimized through coupled objectives, and existing enhancement methods do not alter this underlying bottleneck. To address this issue, we propose a plugin extension paradigm termed Distillation-aware Lightweight Components (DLC) for distillation-based CL. DLC deploys lightweight residual plugins into the base feature extractor's classifier-proximal layer, enabling semantic-level residual correction for better classification accuracy while minimizing disruption to the overall feature extraction process. During inference, plugin-enhanced representations are aggregated to produce classification predictions. To mitigate interference from non-target plugins, we further introduce a lightweight weighting unit that learns to assign importance scores to different plugin-enhanced representations. DLC could deliver a significant 8% accuracy gain on large-scale benchmarks while introducing only a 4% increase in backbone parameters, highlighting its exceptional efficiency. Moreover, DLC is compatible with other plug-and-play CL enhancements and delivers additional gains when combined with them.