How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models

作者: Kangtao Lv, Haibin Chen, Yujin Yuan, Langming Liu, Shilei Liu, Yongwei Wang, Wenbo Su, Bo Zheng

分类: cs.CL, cs.AI

发布日期: 2025-09-19

💡 一句话要点

提出知识注入缩放律，高效指导大语言模型预训练中的领域知识注入

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 预训练 知识注入 缩放律 领域知识 灾难性遗忘 知识崩溃点

📋 核心要点

现有大语言模型缺乏领域知识优化，在特定领域表现不佳，甚至产生幻觉。
论文提出知识注入缩放律，通过分析小模型来预测大模型最佳领域知识注入量，避免灾难性遗忘。
实验验证了该缩放律的有效性和泛化性，能够在不同模型大小和预训练token预算下工作。

📝 摘要（中文）

大型语言模型（LLMs）因其在各种下游任务中表现出的卓越通用能力而备受关注。然而，在没有针对特定领域的优化时，它们在专业知识基准测试中通常表现不佳，甚至产生幻觉。最近的研究表明，在预训练期间策略性地注入领域知识可以显著提高下游性能。一个关键的挑战在于平衡这种注入的权衡：注入过少的领域特定数据会导致专业化不足，而过度注入会引发对先前获得知识的灾难性遗忘。在这项工作中，我们关注由过度注入引起的记忆崩溃现象。通过系统的实验，我们提出了两个关键观察结果，即1）临界崩溃点：每个模型都表现出一个阈值，超过该阈值其知识保留能力会急剧下降；2）规模相关性：这些崩溃点与模型的大小一致地缩放。基于这些见解，我们提出了一种知识注入缩放律，通过分析较小的模型来预测要注入到大型LLM中的最佳领域知识量。跨不同模型大小和预训练token预算的广泛实验验证了我们的缩放律的有效性和泛化性。

🔬 方法详解

问题定义：现有的大语言模型在特定领域知识方面存在不足，直接应用会导致性能下降甚至产生幻觉。为了提升模型在特定领域的表现，需要在预训练阶段注入领域知识。然而，如何确定最佳的知识注入量是一个挑战。注入过少无法有效提升性能，而注入过多则会导致模型遗忘先前学习到的通用知识，即发生灾难性遗忘。

核心思路：论文的核心思路是发现知识注入量与模型规模之间的关系，即知识注入缩放律。通过观察小模型的知识崩溃点，并将其与模型规模联系起来，从而预测大模型在预训练阶段应该注入的最佳领域知识量。这种方法避免了在大模型上进行大量的实验搜索，降低了计算成本。

技术框架：该研究的技术框架主要包括以下几个步骤：1）系统性地在不同大小的模型上进行实验，探索知识注入量与模型性能之间的关系；2）观察并记录每个模型的知识崩溃点，即模型性能开始显著下降的知识注入量；3）分析知识崩溃点与模型规模之间的相关性，建立知识注入缩放律；4）在大模型上验证该缩放律的有效性，即使用该缩放律预测的知识注入量进行预训练，并评估模型在下游任务上的性能。

关键创新：该论文最重要的技术创新点在于提出了知识注入缩放律。该缩放律能够根据模型规模预测最佳的领域知识注入量，从而避免了在大模型上进行大量的实验搜索。此外，该研究还发现了知识崩溃点这一现象，并将其与模型规模联系起来，为理解大语言模型的知识学习和遗忘机制提供了新的视角。

关键设计：论文的关键设计包括：1）使用不同大小的模型进行实验，以观察知识注入量与模型性能之间的关系；2）定义了知识崩溃点，并使用特定的指标来衡量模型的知识保留能力；3）使用回归分析等方法来建立知识崩溃点与模型规模之间的关系，从而得到知识注入缩放律；4）在不同领域和数据集上验证该缩放律的泛化性。

📊 实验亮点

该研究通过实验发现，每个模型都存在一个知识崩溃点，超过该点其知识保留能力会急剧下降。更重要的是，这些崩溃点与模型的大小呈现一致的缩放关系。基于此，论文提出的知识注入缩放律能够有效地预测大语言模型预训练中最佳的领域知识注入量，并在不同模型大小和预训练token预算下得到验证。

🎯 应用场景

该研究成果可应用于各种需要领域知识增强的大语言模型预训练场景，例如医疗、金融、法律等领域。通过知识注入缩放律，可以高效地将领域知识注入到大语言模型中，提升其在特定领域的性能，并减少灾难性遗忘的风险。这有助于构建更加专业化和可靠的大语言模型，从而更好地服务于各个行业。

📄 摘要（原文）

Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.

How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册