Internal Representations as Indicators of Hallucinations in Agent Tool Selection

📄 arXiv: 2601.05214v1 📥 PDF

作者: Kait Healy, Bharathi Srinivasan, Visakh Madathil, Jing Wu

分类: cs.AI

发布日期: 2026-01-08


💡 一句话要点

利用LLM内部表征实时检测Agent工具选择中的幻觉

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具调用 幻觉检测 内部表征 Agent 实时检测 自然语言处理

📋 核心要点

  1. 现有Agent工具选择方法易产生幻觉,导致工具误用、参数错误和工具绕过,降低了Agent的可靠性和安全性。
  2. 该论文提出利用LLM在生成过程中的内部表征,在单次前向传递中实时检测工具调用幻觉。
  3. 实验表明,该方法在多个领域推理任务中表现出强大的幻觉检测能力,准确率高达86.4%,且计算开销小。

📝 摘要(中文)

大型语言模型(LLMs)在工具调用和使用方面表现出卓越的能力,但存在幻觉问题,例如选择不正确的工具、提供格式错误的参数,以及通过执行模拟和生成输出来绕过专用工具或外部系统,即“工具绕过”行为。这损害了基于LLM的Agent在生产系统中的可靠性,因为它导致不一致的结果,并绕过了安全和审计控制。Agent工具选择中的此类幻觉需要尽早检测和处理。与需要多次前向传递或外部验证的现有幻觉检测方法不同,我们提出了一个计算效率高的框架,通过利用LLM在生成过程中使用的相同前向传递中的内部表征来实时检测工具调用幻觉。我们在多个领域的推理任务中评估了这种方法,证明了强大的检测性能(高达86.4%的准确率),同时保持了实时推理能力和最小的计算开销,尤其擅长检测参数级别的幻觉和不适当的工具选择,这对于可靠的Agent部署至关重要。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在Agent工具选择过程中出现的幻觉问题,具体表现为选择错误的工具、提供格式错误的参数以及绕过工具直接生成结果。现有方法通常需要多次前向传递或依赖外部验证,计算成本高昂,难以满足实时性要求。

核心思路:该论文的核心思路是利用LLM在生成文本时的内部表征(Internal Representations)来判断工具选择是否合理。作者认为,当LLM产生幻觉时,其内部表征会与正常情况有所不同,通过分析这些差异可以实现幻觉检测。

技术框架:该框架主要包含以下步骤:1) LLM接收输入并生成文本,同时提取其内部表征;2) 使用分类器(例如,线性层或更复杂的模型)分析内部表征,判断是否存在幻觉;3) 如果检测到幻觉,则采取相应的纠正措施,例如重新选择工具或修改参数。整个过程在LLM的单次前向传递中完成,无需额外的计算开销。

关键创新:该论文的关键创新在于利用LLM自身的内部信息进行幻觉检测,避免了对外部资源的依赖和多次前向传递的需求。这种方法具有计算效率高、实时性强的优点,更易于在实际应用中部署。

关键设计:论文中,内部表征的选择至关重要,作者可能尝试了不同层级的表征,并选择了最能区分幻觉和正常情况的表征。分类器的设计也需要仔细考虑,以确保能够准确地识别出幻觉。此外,如何根据检测结果采取有效的纠正措施也是一个重要的设计环节,可能涉及到重新采样、约束解码等技术。

📊 实验亮点

实验结果表明,该方法在多个领域的推理任务中取得了显著的幻觉检测效果,准确率高达86.4%。与现有方法相比,该方法在保持实时推理能力的同时,计算开销极小。尤其是在检测参数级别的幻觉和不适当的工具选择方面,该方法表现出色,这对于可靠的Agent部署至关重要。

🎯 应用场景

该研究成果可应用于各种需要Agent进行工具调用的场景,例如智能客服、自动化运维、智能家居等。通过实时检测和纠正Agent的幻觉,可以提高Agent的可靠性和安全性,避免因工具误用或参数错误而导致的不良后果。该技术还有助于提升用户体验,减少人工干预的需求。

📄 摘要(原文)

Large Language Models (LLMs) have shown remarkable capabilities in tool calling and tool usage, but suffer from hallucinations where they choose incorrect tools, provide malformed parameters and exhibit 'tool bypass' behavior by performing simulations and generating outputs instead of invoking specialized tools or external systems. This undermines the reliability of LLM based agents in production systems as it leads to inconsistent results, and bypasses security and audit controls. Such hallucinations in agent tool selection require early detection and error handling. Unlike existing hallucination detection methods that require multiple forward passes or external validation, we present a computationally efficient framework that detects tool-calling hallucinations in real-time by leveraging LLMs' internal representations during the same forward pass used for generation. We evaluate this approach on reasoning tasks across multiple domains, demonstrating strong detection performance (up to 86.4\% accuracy) while maintaining real-time inference capabilities with minimal computational overhead, particularly excelling at detecting parameter-level hallucinations and inappropriate tool selections, critical for reliable agent deployment.