UCD: Unlearning in LLMs via Contrastive Decoding
作者: Vinith M. Suriyakumar, Ayush Sekhari, Ashia Wilson
分类: cs.CL, cs.CR, cs.LG, stat.ML
发布日期: 2025-06-12
💡 一句话要点
提出对比解码方法以解决大语言模型中的信息遗忘问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器遗忘 对比解码 大语言模型 信息安全 模型性能 隐私保护 内容审核
📋 核心要点
- 现有方法在从大型语言模型中移除特定信息时,往往难以平衡遗忘效果与模型性能之间的关系。
- 本文提出了一种基于对比解码的推理时遗忘算法,利用两个辅助模型的差异来指导原始模型的输出。
- 在TOFU和MUSE两个遗忘基准上,实验结果显示该方法在遗忘质量和保留性能上均显著优于现有方法。
📝 摘要(中文)
机器遗忘旨在从大型语言模型中移除特定信息,如敏感或不良内容,同时保持整体性能。本文提出了一种推理时的遗忘算法,利用对比解码,借助两个辅助的小型模型,一个在未包含遗忘集的情况下训练,另一个则包含遗忘集,在推理过程中通过它们的差异来引导原始模型的输出。该策略显著改善了遗忘效果与模型效用之间的权衡。我们在两个遗忘基准TOFU和MUSE上评估了该方法,结果显示与先前方法相比,遗忘质量和保留性能均有显著提升,表明对比解码为大规模模型中的概念遗忘提供了一条高效、实用的途径。
🔬 方法详解
问题定义:本文旨在解决如何有效地从大型语言模型中移除特定信息的问题,现有方法在遗忘特定内容时,往往会导致模型整体性能下降,难以实现有效的遗忘与性能保留之间的平衡。
核心思路:论文提出的核心思路是通过对比解码,利用两个辅助模型的输出差异来引导原始模型的推理过程,从而实现有效的遗忘。这样的设计使得在不直接修改原始模型的情况下,能够灵活地控制遗忘内容。
技术框架:整体架构包括原始模型和两个辅助模型,其中一个模型在未包含遗忘集的情况下训练,另一个则包含遗忘集。在推理时,通过对比这两个模型的输出,来调整原始模型的结果。
关键创新:最重要的技术创新点在于引入了对比解码机制,通过两个不同训练条件下的模型输出差异来实现信息的选择性遗忘,这与传统的直接修改模型参数的方法有本质区别。
关键设计:在模型设计中,关键参数包括辅助模型的训练策略、损失函数的选择,以及如何有效地整合两个模型的输出。此外,模型的架构设计也考虑了如何最大化信息的保留与遗忘效果的平衡。
📊 实验亮点
实验结果表明,采用对比解码的遗忘算法在TOFU和MUSE基准上,遗忘质量和保留性能均有显著提升,具体表现为相较于先前方法,遗忘效果提高了XX%,而模型性能保持在YY%的水平,显示出该方法的有效性与实用性。
🎯 应用场景
该研究的潜在应用领域包括隐私保护、内容审核和个性化推荐等场景。在这些领域中,能够有效地从模型中移除敏感或不良信息,同时保持模型的整体性能,将具有重要的实际价值。未来,该方法可能推动更多关于机器遗忘的研究,促进模型的安全性与可靠性提升。
📄 摘要(原文)
Machine unlearning aims to remove specific information, e.g. sensitive or undesirable content, from large language models (LLMs) while preserving overall performance. We propose an inference-time unlearning algorithm that uses contrastive decoding, leveraging two auxiliary smaller models, one trained without the forget set and one trained with it, to guide the outputs of the original model using their difference during inference. Our strategy substantially improves the tradeoff between unlearning effectiveness and model utility. We evaluate our approach on two unlearning benchmarks, TOFU and MUSE. Results show notable gains in both forget quality and retained performance in comparison to prior approaches, suggesting that incorporating contrastive decoding can offer an efficient, practical avenue for unlearning concepts in large-scale models.