Merge and Bound: Direct Manipulations on Weights for Class Incremental Learning

📄 arXiv: 2511.21490v1 📥 PDF

作者: Taehoon Kim, Donghwan Jang, Bohyung Han

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-11-26


💡 一句话要点

提出Merge-and-Bound方法,通过权重空间操作解决类增量学习中的灾难性遗忘问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 类增量学习 灾难性遗忘 权重合并 有界更新 持续学习

📋 核心要点

  1. 类增量学习面临灾难性遗忘问题,即学习新类时会忘记旧类知识。
  2. M&B方法通过任务间和任务内权重合并,并在权重更新时进行约束,保留旧知识并学习新知识。
  3. 实验表明,M&B方法在标准CIL基准测试中优于现有方法,有效缓解了灾难性遗忘。

📝 摘要(中文)

本文提出了一种名为Merge-and-Bound (M&B) 的新型训练方法,用于类增量学习 (CIL)。该方法直接在参数空间中操作模型权重以进行优化。我们的算法涉及两种类型的权重合并:任务间权重合并和任务内权重合并。任务间权重合并通过平均先前所有阶段的模型权重来统一先前的模型。另一方面,任务内权重合并通过组合当前阶段的模型参数来促进当前任务的学习。为了实现可靠的权重合并,我们还提出了一种有界更新技术,旨在以最小的累积更新优化目标模型,并保留先前任务的知识;该策略表明,可以有效地在旧模型附近获得新模型,从而减少灾难性遗忘。M&B 可以无缝集成到现有的 CIL 方法中,而无需修改架构组件或修改学习目标。我们在标准 CIL 基准上广泛评估了我们的算法,并证明了与最先进方法相比的卓越性能。

🔬 方法详解

问题定义:类增量学习(CIL)旨在使模型能够逐步学习新的类别,而不会忘记之前学习过的类别。现有的CIL方法通常面临“灾难性遗忘”的问题,即在学习新任务时,模型会显著降低在先前任务上的性能。现有的方法通常需要复杂的架构修改或损失函数设计,限制了其通用性和易用性。

核心思路:M&B的核心思路是通过直接操作模型权重来优化模型,从而避免灾难性遗忘。它通过合并不同任务的模型权重,以及约束权重更新的幅度,来在学习新知识的同时保留旧知识。这种方法的核心在于认为可以通过在参数空间中找到一个合适的点,使得模型既能适应新任务,又能保持对旧任务的记忆。

技术框架:M&B算法主要包含以下几个步骤:1. 任务间权重合并:将之前所有任务的模型权重进行平均,得到一个统一的先前知识模型。2. 任务内权重合并:在当前任务的学习过程中,对模型参数进行合并,以促进当前任务的学习。3. 有界更新:在更新模型权重时,限制更新的幅度,以防止模型过度偏离先前任务的知识。这个过程可以迭代进行,直到模型收敛。

关键创新:M&B的关键创新在于其直接在权重空间进行操作,而不是像传统方法那样修改网络结构或损失函数。通过任务间和任务内权重合并,以及有界更新,M&B能够在学习新知识的同时有效地保留旧知识,从而缓解灾难性遗忘。这种方法的另一个优点是它可以很容易地集成到现有的CIL方法中,而无需进行大量的修改。

关键设计:M&B的关键设计包括:1. 权重合并策略:任务间权重合并采用简单的平均策略,任务内权重合并的具体方法未知,可能依赖于具体任务。2. 有界更新的实现:具体如何实现有界更新未知,可能涉及到对权重更新幅度的裁剪或正则化。3. 超参数设置:权重合并的比例、有界更新的幅度等超参数的选择对模型的性能有重要影响,但论文中未提及具体设置。

📊 实验亮点

论文在标准CIL基准测试中验证了M&B方法的有效性,实验结果表明,M&B方法在多个数据集上优于现有的CIL方法。具体的性能提升幅度未知,但摘要中明确指出M&B方法表现出“卓越性能”。

🎯 应用场景

M&B方法可应用于需要持续学习新知识的场景,如智能客服、自动驾驶、医疗诊断等。这些场景中,模型需要不断适应新的数据和任务,同时保持对先前知识的记忆。M&B方法能够有效缓解灾难性遗忘,提高模型的泛化能力和鲁棒性,具有重要的实际应用价值。

📄 摘要(原文)

We present a novel training approach, named Merge-and-Bound (M&B) for Class Incremental Learning (CIL), which directly manipulates model weights in the parameter space for optimization. Our algorithm involves two types of weight merging: inter-task weight merging and intra-task weight merging. Inter-task weight merging unifies previous models by averaging the weights of models from all previous stages. On the other hand, intra-task weight merging facilitates the learning of current task by combining the model parameters within current stage. For reliable weight merging, we also propose a bounded update technique that aims to optimize the target model with minimal cumulative updates and preserve knowledge from previous tasks; this strategy reveals that it is possible to effectively obtain new models near old ones, reducing catastrophic forgetting. M&B is seamlessly integrated into existing CIL methods without modifying architecture components or revising learning objectives. We extensively evaluate our algorithm on standard CIL benchmarks and demonstrate superior performance compared to state-of-the-art methods.