Countering Catastrophic Forgetting of Large Language Models for Better Instruction Following via Weight-Space Model Merging

📄 arXiv: 2604.01538v1 📥 PDF

作者: Mengxian Lyu, Cheng Peng, Ziyi Chen, Mengyuan Zhang, Jieting Li Lu, Yonghui Wu

分类: cs.CL, cs.AI

发布日期: 2026-04-02


💡 一句话要点

提出基于权重空间模型融合的框架,缓解大语言模型在医疗领域微调中的灾难性遗忘问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 灾难性遗忘 模型融合 医疗领域 指令遵循

📋 核心要点

  1. 通用大语言模型在医疗领域微调时,容易遗忘其原有的指令遵循能力,限制了其在临床场景的应用。
  2. 论文提出一种基于权重空间模型融合的框架,通过融合通用指令模型和临床基础模型,保留两者的优势。
  3. 实验表明,该方法能有效缓解灾难性遗忘,在医疗任务上取得良好性能,并保持指令遵循能力,且训练效率高。

📝 摘要(中文)

大型语言模型已被应用于医疗领域,以进行临床文档记录,从而减轻临床医生的负担。然而,研究表明,LLM在使用特定于任务的医疗数据集进行微调时,经常“忘记”大量的指令遵循能力,这是在临床应用中采用通用LLM的关键挑战。本研究提出了一种模型融合框架,通过对抗这种遗忘问题,有效地将通用LLM适应于医疗领域。通过基于插值的融合方法将临床基础模型(GatorTronLlama)与通用指令模型(Llama-3.1-8B-Instruct)融合,我们旨在获得一个在临床任务上具有强大性能,同时保留指令遵循能力的领域自适应模型。在医疗基准和五个临床生成任务(例如,放射学和出院总结)上的综合评估表明,融合模型可以有效地减轻灾难性遗忘,保留临床领域专业知识,并保留指令遵循能力。此外,我们的模型融合策略展示了训练效率,在严重受限的监督下(例如,64-shot vs. 256-shot)实现了与完全微调的基线相当的性能。因此,权重空间融合构成了一种高度可扩展的解决方案,用于将开源LLM适应于临床应用,从而促进在资源受限的医疗保健环境中更广泛的部署。

🔬 方法详解

问题定义:论文旨在解决通用大语言模型(LLM)在针对特定医疗任务进行微调时出现的灾难性遗忘问题。现有方法,如完全微调,虽然可以提升在特定任务上的性能,但往往会显著降低LLM原有的指令遵循能力,这对于需要通用知识和指令理解的临床应用来说是不可接受的。

核心思路:论文的核心思路是通过权重空间模型融合,将一个在通用指令遵循方面表现良好的LLM(Llama-3.1-8B-Instruct)和一个在医疗领域具有专业知识的LLM(GatorTronLlama)进行融合。这样做的目的是保留通用LLM的指令遵循能力,同时引入医疗领域的专业知识,从而创建一个既能理解指令又能处理医疗任务的领域自适应模型。

技术框架:该框架主要包含两个阶段:首先,选择或训练一个通用指令模型和一个领域基础模型。然后,使用基于插值的模型融合方法,将两个模型的权重进行融合,得到一个融合后的模型。具体的融合方法包括线性插值等。最后,对融合后的模型进行评估,验证其在医疗任务上的性能和指令遵循能力。

关键创新:该论文的关键创新在于利用权重空间模型融合来缓解灾难性遗忘问题,这与传统的微调方法不同。传统的微调方法通常会覆盖原始模型的权重,导致遗忘。而模型融合则是在权重空间中进行操作,保留了原始模型的知识,同时引入了新的知识。

关键设计:论文采用了基于插值的模型融合方法,例如线性插值。具体来说,融合后的模型权重是两个原始模型权重的加权平均,权重系数可以根据实验结果进行调整。此外,论文还关注了在资源受限的情况下,如何通过模型融合实现与完全微调相当的性能,例如,在少量样本(64-shot)的情况下,模型融合也能取得良好的效果。

📊 实验亮点

实验结果表明,通过模型融合,可以在医疗基准测试和临床生成任务(如放射学和出院总结)上有效减轻灾难性遗忘,保留临床领域专业知识,并保持指令遵循能力。在资源受限的条件下(例如,64-shot),融合模型可以达到与256-shot完全微调基线相当的性能,展示了训练效率。

🎯 应用场景

该研究成果可广泛应用于医疗领域,例如临床决策支持、电子病历摘要生成、医学影像报告解读等。通过将通用LLM与领域知识融合,可以构建更智能、更高效的医疗AI系统,减轻医护人员的工作负担,提高医疗服务质量,尤其是在资源有限的医疗环境中具有重要意义。

📄 摘要(原文)

Large language models have been adopted in the medical domain for clinical documentation to reduce clinician burden. However, studies have reported that LLMs often "forget" a significant amount of instruction-following ability when fine-tuned using a task-specific medical dataset, a critical challenge in adopting general-purpose LLMs for clinical applications. This study presents a model merging framework to efficiently adapt general-purpose LLMs to the medical domain by countering this forgetting issue. By merging a clinical foundation model (GatorTronLlama) with a general instruct model (Llama-3.1-8B-Instruct) via interpolation-based merge methods, we seek to derive a domain-adapted model with strong performance on clinical tasks while retaining instruction-following ability. Comprehensive evaluation across medical benchmarks and five clinical generation tasks (e.g., radiology and discharge summarization) shows that merged models can effectively mitigate catastrophic forgetting, preserve clinical domain expertise, and retain instruction-following ability. In addition, our model merging strategies demonstrate training efficiency, achieving performance on par with fully fine-tuned baselines under severely constrained supervision (e.g., 64-shot vs. 256-shot). Consequently, weight-space merging constitutes a highly scalable solution for adapting open-source LLMs to clinical applications, facilitating broader deployment in resource-constrained healthcare environments.