KnowledgeSmith: Uncovering Knowledge Updating in LLMs with Model Editing and Unlearning

📄 arXiv: 2510.02392v2 📥 PDF

作者: Yinyi Luo, Zhexian Zhou, Hao Chen, Kai Qiu, Marios Savvides, Sharon Li, Jindong Wang

分类: cs.CL

发布日期: 2025-10-01 (更新: 2025-10-14)

备注: Technical report

🔗 代码/项目: GITHUB


💡 一句话要点

KnowledgeSmith:通过模型编辑与遗忘揭示LLM中的知识更新机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识编辑 机器遗忘 知识更新 模型评估

📋 核心要点

  1. 现有知识编辑和机器遗忘方法缺乏系统性评估,难以充分理解LLM的知识更新机制,阻碍了模型优化。
  2. KnowledgeSmith框架将知识编辑和遗忘统一为约束优化问题,并自动生成多尺度结构化干预数据集,实现可控研究。
  3. 实验揭示了LLM在知识更新方面与人类的差异,以及一致性与容量之间的权衡,为模型设计提供了新思路。

📝 摘要(中文)

知识编辑和机器遗忘是使大型语言模型(LLM)保持最新状态的两种常用方法。然而,由于评估的不充分、孤立和小规模,LLM的知识更新机制在很大程度上仍未被探索。例如,LLM在修改特定知识方面是否与人类相似?随着训练数据增加,编辑和遗忘有何不同?本文提出了KnowledgeSmith,一个统一的框架,用于系统地理解LLM的更新机制。我们首先将编辑和遗忘视为一个约束优化问题的实例。然后,我们提出了一个自动数据集生成器,该生成器提供跨多个图级别和数据规模的结构化干预,从而能够对不同的修改策略如何通过模型知识传播进行受控研究。大量的实验证明了知识传播、可塑性缩放、一致性和鲁棒性的细微见解。例如,我们的结果表明,LLM对于不同级别的知识并没有表现出与人类相似的更新,并且存在一致性-容量的权衡。我们希望我们的发现能为更可靠和可扩展的策略设计提供建议。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)知识更新方法,如知识编辑和机器遗忘,缺乏系统性的评估和比较。具体来说,我们不清楚LLM如何修改不同类型的知识,以及编辑和遗忘在不同数据规模下的表现差异。这阻碍了我们对LLM知识更新机制的深入理解,也限制了我们设计更可靠和可扩展的更新策略。

核心思路:KnowledgeSmith的核心思路是将知识编辑和机器遗忘统一到一个约束优化问题的框架下进行研究。通过构建一个自动数据集生成器,可以系统地生成具有不同图结构和数据规模的干预数据,从而实现对LLM知识更新过程的可控研究。这种方法允许研究者观察不同修改策略如何影响模型知识的传播、可塑性、一致性和鲁棒性。

技术框架:KnowledgeSmith框架主要包含以下几个模块:1) 知识表示模块:将知识表示为图结构,允许定义不同层次的知识单元。2) 数据集生成模块:自动生成包含结构化干预的数据集,可以控制图的规模和干预的强度。3) 模型编辑/遗忘模块:应用不同的知识编辑或机器遗忘算法来修改LLM的知识。4) 评估模块:评估修改后的模型在知识传播、可塑性、一致性和鲁棒性等方面的表现。

关键创新:KnowledgeSmith的关键创新在于其统一的框架和自动数据集生成器。它将知识编辑和机器遗忘视为同一问题的两个方面,并提供了一种系统的方法来研究它们之间的关系。自动数据集生成器允许研究者在受控的环境中研究不同修改策略的影响,而无需手动创建大量的数据。

关键设计:KnowledgeSmith的关键设计包括:1) 图结构知识表示:使用图结构来表示知识,允许定义不同层次的知识单元,并研究它们之间的关系。2) 自动数据集生成:设计了一种算法,可以自动生成包含结构化干预的数据集,可以控制图的规模和干预的强度。3) 多维度评估指标:使用多个评估指标来评估修改后的模型在知识传播、可塑性、一致性和鲁棒性等方面的表现。

📊 实验亮点

实验结果表明,LLM在知识更新方面与人类存在差异,尤其是在不同层级的知识更新上。此外,研究发现LLM的知识更新存在一致性-容量的权衡,即提高模型的一致性可能会降低其容量。这些发现为设计更可靠和可扩展的知识更新策略提供了重要的启示。

🎯 应用场景

KnowledgeSmith的研究成果可应用于提升LLM的知识更新能力,使其能够更有效地适应新的信息和纠正错误。这对于需要持续学习和更新知识的LLM应用至关重要,例如智能客服、知识问答系统和自动内容生成。此外,该框架还可以用于评估不同知识编辑和机器遗忘算法的性能,并指导新算法的设计。

📄 摘要(原文)

Knowledge editing and machine unlearning are two popular approaches for large language models (LLMs) to stay up-to-date. However, the knowledge updating mechanism of LLMs remains largely unexplored due to insufficient, isolated, and small-scale evaluation. For instance, are LLMs similar to humans in modifying certain knowledge? What differs editing and unlearning as training data increases? This paper proposes KnowledgeSmith, a unified framework to systematically understand the updating mechanism of LLMs. We first cast editing and unlearning as instances of one constrained optimization problem. Then, we propose an automatic dataset generator that provides structured interventions across multiple graph levels and data scales, enabling controlled studies of how different modification strategies propagate through model knowledge. Extensive experiments demonstrate nuanced insights over knowledge propagation, plasticity scaling, consistency, and robustness. For instance, our results show that LLMs do not exhibit similar updating as humans for different levels of knowledge, and there exists consistency-capacity trade-off. We hope our findings can offer suggestions to the design of more reliable and scalable strategies. Code: https://github.com/AIFrontierLab/KnowledgeSmith.git