Hallucination reduction with CASAL: Contrastive Activation Steering For Amortized Learning

作者: Wannan, Yang, Xinchi Qiu, Lei Yu, Yuchen Zhang, Aobo Yang, Narine Kokhlikyan, Nicola Cancedda, Diego Garcia-Olano

分类: cs.CL, cs.AI

发布日期: 2025-09-25 (更新: 2025-12-06)

💡 一句话要点

CASAL：对比激活引导的摊销学习，有效降低大语言模型幻觉

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉抑制 激活引导 对比学习 摊销学习 可解释性 知识蒸馏

📋 核心要点

现有激活引导方法依赖推理时的实时干预，计算成本高，难以直接部署。
CASAL通过对比学习将激活引导的优势直接融入模型权重，实现高效的幻觉抑制。
实验表明，CASAL在多个QA基准上显著降低幻觉，且计算和数据效率远超LoRA基线。

📝 摘要（中文）

大型语言模型（LLMs）展现出令人印象深刻的能力，但常常产生幻觉，自信地提供不正确的答案，而不是承认无知。先前的工作表明，模型编码了自身知识的线性表示，并且激活引导可以减少幻觉。然而，这些方法需要在推理过程中进行实时监控和干预。我们引入了对比激活引导的摊销学习（CASAL），这是一种高效的算法，将可解释性与摊销优化联系起来。CASAL直接将激活引导的优势融入模型的权重中。经过训练后，LLMs可以回答它们知道的问题，同时避免回答它们不知道的问题。CASAL的轻量级设计只需要训练单个Transformer层的一个子模块，但可以在多个简短问答基准测试中将幻觉减少30%-40%。CASAL比基于LoRA的强大基线（如SFT和DPO）的计算效率高30倍，数据效率高20倍，从而提高了其在数据稀缺领域的实际适用性。重要的是，CASAL还可以有效地推广到分布外（OOD）领域。我们展示了CASAL在减轻纯文本和视觉语言模型中幻觉方面的灵活性。据我们所知，CASAL是第一个已被证明对密集模型和混合专家（MoE）模型都有效的基于引导的训练方法。CASAL代表了将可解释性启发的方法应用于生产系统中实际部署的有希望的一步。

🔬 方法详解

问题定义：大型语言模型在生成文本时经常出现“幻觉”现象，即自信地输出不正确或无意义的内容。现有的激活引导方法虽然可以缓解这一问题，但需要在推理阶段进行实时监控和干预，增加了计算负担，限制了其在实际生产环境中的应用。因此，如何高效地减少LLM的幻觉，同时避免推理时的额外开销，是一个亟待解决的问题。

核心思路：CASAL的核心思想是将激活引导的优势“烘焙”到模型的权重中，使其在推理阶段无需额外的干预即可自动抑制幻觉。具体而言，CASAL通过对比学习，鼓励模型区分已知和未知的问题，并调整模型参数，使得模型在遇到未知问题时能够选择“拒绝回答”，从而减少幻觉的产生。

技术框架：CASAL主要包含以下几个关键步骤：1) 数据准备：构建包含已知问题和未知问题的对比数据集。2) 激活引导：利用现有的激活引导技术，确定模型在回答已知问题和未知问题时的关键激活模式。3) 对比学习：设计对比损失函数，鼓励模型学习区分已知和未知问题的激活模式。4) 参数更新：通过优化对比损失函数，更新模型参数，将激活引导的知识融入模型权重中。CASAL仅需训练单个Transformer层的一个子模块，保持了轻量级的设计。

关键创新：CASAL的关键创新在于将激活引导与摊销学习相结合，实现了高效的幻觉抑制。与现有的激活引导方法相比，CASAL无需推理时的实时干预，降低了计算成本。与传统的微调方法相比，CASAL通过对比学习，能够更有效地学习区分已知和未知问题，从而更好地抑制幻觉。此外，CASAL是第一个被证明对密集模型和混合专家（MoE）模型都有效的基于引导的训练方法。

关键设计：CASAL的关键设计包括：1) 对比损失函数：设计合适的对比损失函数，鼓励模型学习区分已知和未知问题的激活模式。例如，可以使用InfoNCE损失函数，将已知问题的激活模式作为正样本，未知问题的激活模式作为负样本。2) 子模块选择：选择合适的Transformer层子模块进行训练。论文表明，训练单个Transformer层的一个子模块即可取得良好的效果。3) 超参数调整：调整对比学习的超参数，例如温度系数，以获得最佳的性能。

📊 实验亮点

CASAL在多个短文本问答基准测试中，将幻觉降低了30%-40%，且计算效率比SFT和DPO等LoRA基线高30倍，数据效率高20倍。此外，CASAL还展现出良好的泛化能力，能够有效地推广到分布外（OOD）领域。这些结果表明，CASAL是一种高效、可靠的幻觉抑制方法。

🎯 应用场景

CASAL具有广泛的应用前景，可用于提高各种LLM在问答、对话生成等任务中的可靠性和安全性。尤其适用于数据稀缺的领域，例如医疗、法律等，在这些领域中，LLM的幻觉可能会导致严重的后果。此外，CASAL还可以应用于视觉语言模型，提高其在图像描述、视觉问答等任务中的准确性。

📄 摘要（原文）

Large Language Models (LLMs) exhibit impressive capabilities but often hallucinate, confidently providing incorrect answers instead of admitting ignorance. Prior work has shown that models encode linear representations of their own knowledge and that activation steering can reduce hallucinations. These approaches, however, require real-time monitoring and intervention during inference. We introduce Contrastive Activation Steering for Amortized Learning (CASAL), an efficient algorithm that connects interpretability with amortized optimization. CASAL directly bakes the benefits of activation steering into model's weights. Once trained, LLMs answer questions they know while abstaining from answering those they do not. CASAL's light-weight design requires training only a submodule of a single transformer layer and yet reduces hallucination by 30%-40% across multiple short-form QA benchmarks. CASAL is 30x more compute-efficient and 20x more data-efficient than strong LoRA-based baselines such as SFT and DPO, boosting its practical applicability in data scarce domains. Importantly, CASAL also generalizes effectively to out-of-distribution (OOD) domains. We showcase CASAL's flexibility in mitigating hallucinations in both text-only and vision-language models. To our knowledge, CASAL is the first steering-based training method that has been shown to be effective for both dense and Mixture-of-Experts (MoE) models. CASAL represents a promising step forward for applying interpretability-inspired method for practical deployment in production systems.

Hallucination reduction with CASAL: Contrastive Activation Steering For Amortized Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册