SAFE: Stepwise Atomic Feedback for Error correction in Multi-hop Reasoning

📄 arXiv: 2604.01993v1 📥 PDF

作者: Daeyong Kwon, Soyoung Yoon, Seung-won Hwang

分类: cs.CL, cs.AI

发布日期: 2026-04-02


💡 一句话要点

SAFE框架通过原子反馈纠正多跳推理中的错误,提升LLM的推理可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多跳推理 知识图谱 错误纠正 原子反馈 可验证推理

📋 核心要点

  1. 现有LLM在多跳问答中存在推理步骤无根据的问题,导致模型表面正确但实际推理错误。
  2. SAFE框架通过知识图谱对推理过程进行严格验证,并构建原子错误分类法,从而消除噪声监督。
  3. 实验表明,SAFE不仅能暴露现有基准测试的缺陷,还能显著提升模型准确率,并保证推理过程的可验证性。

📝 摘要(中文)

多跳问答基准测试常因表面正确性而奖励大型语言模型(LLM),掩盖了无根据或有缺陷的推理步骤。为了转向严格的推理,我们提出了SAFE,一个动态基准测试框架,它用严格可验证的基于知识图谱(KG)的实体序列取代了无根据的思维链(CoT)。我们的框架跨越两个阶段:(1)训练时验证,我们建立了一个原子错误分类法和一个KG-grounded验证管道,以消除标准基准测试中的噪声监督,识别高达14%的实例为无法回答;(2)推理时验证,一个在此验证数据集上训练的反馈模型动态地实时检测无根据的步骤。实验结果表明,SAFE不仅暴露了现有基准测试在训练时的关键缺陷,而且显著优于标准基线,实现了平均8.4个百分点的准确率提升,同时保证了推理时可验证的轨迹。

🔬 方法详解

问题定义:多跳问答任务中,大型语言模型(LLMs)经常在推理过程中产生不准确或无根据的步骤,即使最终答案正确,也掩盖了推理过程的错误。现有的基准测试方法难以有效识别和纠正这些错误,导致模型在不可靠的推理路径上进行学习。

核心思路:SAFE框架的核心在于将传统的Chain-of-Thought (CoT)推理过程替换为一系列严格可验证的、基于知识图谱(KG)的原子步骤。通过这种方式,可以对每个推理步骤进行精确验证,从而识别并纠正推理过程中的错误。

技术框架:SAFE框架包含两个主要阶段:训练时验证和推理时验证。 1. 训练时验证:首先,建立一个原子错误分类法,用于识别不同类型的推理错误。然后,利用KG-grounded验证管道对训练数据进行清洗,去除噪声监督,识别无法回答的实例。 2. 推理时验证:训练一个反馈模型,该模型能够动态地检测推理过程中的无根据步骤。在推理过程中,该模型会实时提供反馈,指导LLM进行更可靠的推理。

关键创新:SAFE框架的关键创新在于引入了原子反馈机制,将复杂的推理过程分解为可验证的原子步骤。与传统的CoT方法相比,SAFE能够更精确地识别和纠正推理错误,从而提高模型的推理可靠性。此外,SAFE框架还利用KG进行推理过程的验证,确保推理步骤的合理性和准确性。

关键设计: 1. 原子错误分类法:定义了一套全面的错误类型,用于指导错误识别和纠正。 2. KG-grounded验证管道:利用知识图谱对推理步骤进行验证,确保推理过程的合理性和准确性。 3. 反馈模型:训练一个能够动态检测无根据步骤的模型,并提供反馈以指导LLM进行更可靠的推理。具体实现细节(如损失函数、网络结构)在论文中可能未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SAFE框架在实验中表现出色,不仅揭示了现有基准测试的缺陷,还显著优于标准基线。实验结果显示,SAFE框架实现了平均8.4个百分点的准确率提升,同时保证了推理过程的可验证性。这表明SAFE框架能够有效提高LLM的推理可靠性,并为多跳问答任务提供更可靠的解决方案。

🎯 应用场景

SAFE框架可应用于各种需要可靠多跳推理的场景,如智能问答系统、知识图谱推理、医疗诊断辅助等。通过提高LLM的推理可靠性,SAFE能够提升这些应用场景的准确性和可信度,并减少错误推理带来的潜在风险。未来,该框架还可扩展到其他复杂的推理任务中。

📄 摘要(原文)

Multi-hop QA benchmarks frequently reward Large Language Models (LLMs) for spurious correctness, masking ungrounded or flawed reasoning steps. To shift toward rigorous reasoning, we propose SAFE, a dynamic benchmarking framework that replaces the ungrounded Chain-of-Thought (CoT) with a strictly verifiable sequence of grounded entities. Our framework operates across two phases: (1) train-time verification, where we establish an atomic error taxonomy and a Knowledge Graph (KG)-grounded verification pipeline to eliminate noisy supervision in standard benchmarks, identifying up to 14% of instances as unanswerable, and (2) inference-time verification, where a feedback model trained on this verified dataset dynamically detects ungrounded steps in real-time. Experimental results demonstrate that SAFE not only exposes the critical flaws of existing benchmarks at train-time, but also significantly outperforms standard baselines, achieving an average accuracy gain of 8.4 pp while guaranteeing verifiable trajectories at inference-time.