C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

作者: Avni Mittal, Rauno Arike

分类: cs.CL, cs.AI

发布日期: 2026-03-05

💡 一句话要点

提出C2-Faith基准以评估链式推理中的因果与覆盖忠实性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 链式推理 因果性评估 覆盖性评估 过程忠实性 基准测试 推理系统

📋 核心要点

现有方法在评估链式推理的过程忠实性时，主要关注答案的合理性，缺乏对因果性和覆盖性的系统评估。
本文提出C2-Faith基准，通过控制扰动生成示例，评估因果性和覆盖性，从而提供更全面的评判标准。
实验结果表明，模型在不同任务下的表现差异显著，且在错误检测与定位之间存在明显的性能差距，揭示了LLM评判者的局限性。

📝 摘要（中文）

大型语言模型（LLMs）在链式推理（CoT）中作为评判者的使用日益增加，但它们是否能够可靠地评估过程忠实性仍不明确。本文提出C2-Faith基准，旨在评估因果性（每一步是否合乎逻辑地跟随前文）和覆盖性（是否包含必要的中间推理）两个维度。通过控制扰动，创建已知因果错误位置的示例，并在不同删除率下进行覆盖性删除。对三种前沿评判者在三项任务下进行评估，结果显示模型排名强烈依赖任务框架，且所有评判者在检测错误和定位错误之间存在显著差距，覆盖性判断在不完整推理中系统性膨胀。这些发现明确了LLM评判者的可靠性及其局限性，并为过程级评估中的评判者选择提供了实用指导。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在链式推理中评估过程忠实性时的不足，特别是缺乏对因果性和覆盖性的系统性评估。现有方法主要关注答案的合理性，未能有效识别推理过程中的错误和遗漏。

核心思路：提出C2-Faith基准，通过构建包含已知因果错误和覆盖性缺失的示例，评估LLM在因果检测和覆盖评分方面的能力。这种设计使得评估更加全面，能够揭示模型在推理过程中的具体表现。

技术框架：整体架构包括三个主要模块：1) 生成包含因果错误和覆盖缺失的示例；2) 设计三项评估任务：二元因果检测、因果步骤定位和覆盖评分；3) 对三种前沿LLM评判者进行评估和比较。

关键创新：C2-Faith基准的最大创新在于同时关注因果性和覆盖性两个维度，填补了现有评估方法的空白。与传统方法不同，C2-Faith能够系统地评估推理过程的完整性和逻辑性。

关键设计：在示例生成中，通过控制扰动来替换单个步骤，确保因果错误位置已知；在覆盖性评估中，采用不同的删除率进行测试，确保评估的全面性和准确性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，模型在不同任务下的表现差异显著，且没有单一评判者在所有设置中表现优异。所有评判者在错误检测与定位之间存在显著差距，覆盖性判断在不完整推理中系统性膨胀，这些发现为LLM评判者的选择提供了实用指导。

🎯 应用场景

该研究的潜在应用领域包括教育、自动化推理系统和智能问答等。通过提供更可靠的评估标准，C2-Faith可以帮助开发更高效的LLM，提升其在复杂推理任务中的表现，未来可能对AI系统的可信度和透明度产生深远影响。

📄 摘要（原文）

Large language models (LLMs) are increasingly used as judges of chain-of-thought (CoT) reasoning, but it remains unclear whether they can reliably assess process faithfulness rather than just answer plausibility. We introduce C2-Faith, a benchmark built from PRM800K that targets two complementary dimensions of faithfulness: causality (does each step logically follow from prior context?) and coverage (are essential intermediate inferences present?). Using controlled perturbations, we create examples with known causal error positions by replacing a single step with an acausal variant, and with controlled coverage deletions at varying deletion rates (scored against reference labels). We evaluate three frontier judges under three tasks: binary causal detection, causal step localization, and coverage scoring. The results show that model rankings depend strongly on task framing, with no single judge dominating all settings; all judges exhibit a substantial gap between detecting an error and localizing it; and coverage judgments are systematically inflated for incomplete reasoning. These findings clarify when LLM judges are dependable and where they fail, and provide practical guidance for selecting judges in process-level evaluation

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理