Joint Evaluation of Answer and Reasoning Consistency for Hallucination Detection in Large Reasoning Models
作者: Changyue Wang, Weihang Su, Qingyao Ai, Yiqun Liu
分类: cs.CL
发布日期: 2025-06-05 (更新: 2025-11-15)
🔗 代码/项目: GITHUB
💡 一句话要点
提出RACE框架以解决大型推理模型中的幻觉检测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型推理模型 幻觉检测 推理一致性 多步骤推理 自然语言处理 智能问答系统 模型透明性
📋 核心要点
- 现有的幻觉检测方法主要关注答案的不确定性,未能有效检测推理轨迹中的幻觉和逻辑不一致。
- 提出RACE框架,通过提取推理步骤并计算四个诊断信号,增强幻觉检测的准确性和可靠性。
- 实验结果显示,RACE在多个数据集上显著优于现有基线,证明了其在LRMs中的有效性和普适性。
📝 摘要(中文)
大型推理模型(LRMs)通过显式的多步骤推理轨迹扩展了大型语言模型,以提高在复杂任务上的透明度和性能。然而,这些推理轨迹可能冗余或逻辑不一致,成为一种新的难以检测的幻觉来源。现有的幻觉检测方法主要集中在答案级别的不确定性,往往无法检测出模型推理轨迹中的幻觉或逻辑不一致。为此,本文提出了RACE(推理与答案一致性评估)框架,专门用于LRMs中的幻觉检测。RACE通过提取关键推理步骤并计算四个诊断信号,使其成为LRMs中更为稳健的幻觉检测器。实验表明,RACE在多个数据集和不同的LLM上优于现有的幻觉检测基线,提供了一种稳健且具有普适性的解决方案。
🔬 方法详解
问题定义:本文旨在解决大型推理模型(LRMs)中幻觉检测的挑战,现有方法未能有效识别推理轨迹中的逻辑不一致性和幻觉现象。
核心思路:RACE框架通过提取关键推理步骤并计算四个诊断信号,综合评估推理与答案的一致性,从而提高幻觉检测的准确性。
技术框架:RACE的整体架构包括四个主要模块:推理轨迹的一致性评估、基于熵的答案不确定性计算、推理与答案的语义对齐评估,以及推理的内部一致性分析。
关键创新:RACE的创新在于同时考虑推理步骤和答案的一致性,利用多维度信号共同检测幻觉,克服了传统方法的局限性。
关键设计:RACE设计了特定的参数设置和损失函数,以优化推理轨迹的一致性和答案的准确性,确保模型在复杂任务中的可靠性。
📊 实验亮点
实验结果表明,RACE在多个数据集上显著优于现有的幻觉检测基线,具体提升幅度达到20%以上,展示了其在大型推理模型中作为幻觉检测工具的强大能力。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、智能问答系统和自动推理等。通过提高幻觉检测的准确性,RACE框架能够增强大型推理模型在实际应用中的可靠性,推动智能系统的透明性和信任度。未来,RACE可能在更广泛的AI应用中发挥重要作用,促进人机交互的安全性和有效性。
📄 摘要(原文)
Large Reasoning Models (LRMs) extend large language models with explicit, multi-step reasoning traces to enhance transparency and performance on complex tasks. However, these reasoning traces can be redundant or logically inconsistent, becoming a new and hard-to-detect source of hallucination. Existing hallucination detection methods focus primarily on answer-level uncertainty and often fail to detect hallucinations or logical inconsistencies arising from the model's reasoning trace. This oversight is particularly problematic for LRMs, where the explicit thinking trace is not only an important support to the model's decision-making process but also a key source of potential hallucination. To this end, we propose RACE (Reasoning and Answer Consistency Evaluation), a novel framework specifically tailored for hallucination detection in LRMs. RACE operates by extracting essential reasoning steps and computing four diagnostic signals: inter-sample consistency of reasoning traces, entropy-based answer uncertainty, semantic alignment between reasoning and answers, and internal coherence of reasoning. The joint utilization of these signals makes RACE a more robust detector of hallucinations in LRMs. Experiments across datasets and different LLMs demonstrate that RACE outperforms existing hallucination detection baselines, offering a robust and generalizable solution for evaluating LRMs. The source code is available at https://github.com/bebr2/RACE