Pushing the Limits of Distillation-Based Continual Learning via Classifier-Proximal Lightweight Plugins

作者: Zhiming Xu, Baile Xu, Jian Zhao, Furao Shen, Suorong Yang

分类: cs.LG, stat.ML

发布日期: 2026-04-06

💡 一句话要点

提出DLC插件式终身学习框架，解决蒸馏方法中的稳定性-可塑性困境

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 终身学习 持续学习 蒸馏学习 插件式结构 残差学习

📋 核心要点

基于蒸馏的终身学习方法受限于稳定性-可塑性困境，知识获取和保留通过耦合目标进行优化。
DLC通过在分类器近端层部署轻量级残差插件，实现语义级别的残差校正，最小化对特征提取的干扰。
DLC在大型基准测试中实现了8%的精度提升，参数增加仅为4%，且能与其他终身学习方法结合。

📝 摘要（中文）

本文提出了一种名为Distillation-aware Lightweight Components (DLC) 的插件扩展范式，用于解决基于蒸馏的终身学习方法中存在的稳定性-可塑性困境。DLC将轻量级的残差插件部署到基础特征提取器的分类器近端层，从而实现语义级别的残差校正，提高分类精度，同时最大限度地减少对整体特征提取过程的干扰。在推理过程中，聚合插件增强的表示以产生分类预测。为了减轻来自非目标插件的干扰，进一步引入了一个轻量级的加权单元，学习为不同的插件增强表示分配重要性分数。DLC在大规模基准测试中实现了显著的8%的精度提升，而仅增加了4%的骨干参数，突出了其卓越的效率。此外，DLC与其他即插即用的终身学习增强方法兼容，并在与之结合使用时提供额外的增益。

🔬 方法详解

问题定义：基于蒸馏的终身学习方法需要在不断变化的数据流中持续学习，同时保留先前的知识。现有的蒸馏方法虽然存储开销低，但面临稳定性-可塑性困境，即知识的获取和保留是通过耦合的目标函数进行优化的，这限制了模型的学习能力。现有的改进方法并没有改变这种根本的瓶颈。

核心思路：本文的核心思路是将知识的保留和学习解耦。通过在基础特征提取器的分类器近端层添加轻量级的插件，专门负责新任务的学习，而基础特征提取器则主要负责保留先前的知识。这种解耦的设计使得模型可以在学习新知识的同时，最大限度地减少对先前知识的遗忘。

技术框架：DLC框架主要包含以下几个模块：1) 基础特征提取器：负责提取图像的通用特征；2) 轻量级残差插件：部署在分类器近端层，用于学习特定任务的残差校正；3) 加权单元：学习为不同的插件增强表示分配重要性分数，以减轻来自非目标插件的干扰；4) 分类器：基于插件增强的表示进行分类预测。在训练过程中，每个任务训练一个对应的插件。在推理过程中，将基础特征提取器提取的特征与所有插件的输出进行加权融合，然后输入到分类器中。

关键创新：DLC的关键创新在于其插件式的结构和分类器近端层的位置选择。插件式结构使得新任务的学习不会直接修改基础特征提取器的参数，从而减少了对先前知识的遗忘。选择分类器近端层是因为这一层的特征更具有语义信息，更有利于进行残差校正。此外，轻量级的加权单元可以有效地抑制非目标插件的干扰。

关键设计：插件采用残差结构，以保证训练的稳定性。加权单元采用一个简单的全连接层，输入为所有插件增强的表示，输出为每个插件的权重。损失函数包括蒸馏损失和分类损失。蒸馏损失用于保留先前任务的知识，分类损失用于学习当前任务的知识。参数设置方面，插件的参数量远小于基础特征提取器，以保证模型的效率。

🖼️ 关键图片

📊 实验亮点

DLC在大型基准测试中实现了显著的8%的精度提升，而仅增加了4%的骨干参数。与现有的终身学习方法相比，DLC在精度和效率方面都具有优势。此外，DLC与其他即插即用的终身学习增强方法兼容，并在与之结合使用时提供额外的增益，表明其具有良好的可扩展性。

🎯 应用场景

DLC插件式终身学习框架可应用于需要持续学习和知识积累的场景，例如智能客服、自动驾驶、医疗诊断等。该方法能够使模型在不断学习新知识的同时，保持对先前知识的记忆，从而提高模型的泛化能力和鲁棒性。未来，该方法可以进一步扩展到其他模态的数据，例如文本、语音等。

📄 摘要（原文）

Continual learning requires models to learn continuously while preserving prior knowledge under evolving data streams. Distillation-based methods are appealing for retaining past knowledge in a shared single-model framework with low storage overhead. However, they remain constrained by the stability-plasticity dilemma: knowledge acquisition and preservation are still optimized through coupled objectives, and existing enhancement methods do not alter this underlying bottleneck. To address this issue, we propose a plugin extension paradigm termed Distillation-aware Lightweight Components (DLC) for distillation-based CL. DLC deploys lightweight residual plugins into the base feature extractor's classifier-proximal layer, enabling semantic-level residual correction for better classification accuracy while minimizing disruption to the overall feature extraction process. During inference, plugin-enhanced representations are aggregated to produce classification predictions. To mitigate interference from non-target plugins, we further introduce a lightweight weighting unit that learns to assign importance scores to different plugin-enhanced representations. DLC could deliver a significant 8% accuracy gain on large-scale benchmarks while introducing only a 4% increase in backbone parameters, highlighting its exceptional efficiency. Moreover, DLC is compatible with other plug-and-play CL enhancements and delivers additional gains when combined with them.

Pushing the Limits of Distillation-Based Continual Learning via Classifier-Proximal Lightweight Plugins

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理