C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning
作者: Avni Mittal, Rauno Arike
分类: cs.CL, cs.AI
发布日期: 2026-03-05
💡 一句话要点
提出C2-Faith基准以评估链式推理中的因果与覆盖忠实性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 链式推理 因果性评估 覆盖性评估 过程忠实性 基准测试 推理系统
📋 核心要点
- 现有方法在评估链式推理的过程忠实性时,主要关注答案的合理性,缺乏对因果性和覆盖性的系统评估。
- 本文提出C2-Faith基准,通过控制扰动生成示例,评估因果性和覆盖性,从而提供更全面的评判标准。
- 实验结果表明,模型在不同任务下的表现差异显著,且在错误检测与定位之间存在明显的性能差距,揭示了LLM评判者的局限性。
📝 摘要(中文)
大型语言模型(LLMs)在链式推理(CoT)中作为评判者的使用日益增加,但它们是否能够可靠地评估过程忠实性仍不明确。本文提出C2-Faith基准,旨在评估因果性(每一步是否合乎逻辑地跟随前文)和覆盖性(是否包含必要的中间推理)两个维度。通过控制扰动,创建已知因果错误位置的示例,并在不同删除率下进行覆盖性删除。对三种前沿评判者在三项任务下进行评估,结果显示模型排名强烈依赖任务框架,且所有评判者在检测错误和定位错误之间存在显著差距,覆盖性判断在不完整推理中系统性膨胀。这些发现明确了LLM评判者的可靠性及其局限性,并为过程级评估中的评判者选择提供了实用指导。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在链式推理中评估过程忠实性时的不足,特别是缺乏对因果性和覆盖性的系统性评估。现有方法主要关注答案的合理性,未能有效识别推理过程中的错误和遗漏。
核心思路:提出C2-Faith基准,通过构建包含已知因果错误和覆盖性缺失的示例,评估LLM在因果检测和覆盖评分方面的能力。这种设计使得评估更加全面,能够揭示模型在推理过程中的具体表现。
技术框架:整体架构包括三个主要模块:1) 生成包含因果错误和覆盖缺失的示例;2) 设计三项评估任务:二元因果检测、因果步骤定位和覆盖评分;3) 对三种前沿LLM评判者进行评估和比较。
关键创新:C2-Faith基准的最大创新在于同时关注因果性和覆盖性两个维度,填补了现有评估方法的空白。与传统方法不同,C2-Faith能够系统地评估推理过程的完整性和逻辑性。
关键设计:在示例生成中,通过控制扰动来替换单个步骤,确保因果错误位置已知;在覆盖性评估中,采用不同的删除率进行测试,确保评估的全面性和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,模型在不同任务下的表现差异显著,且没有单一评判者在所有设置中表现优异。所有评判者在错误检测与定位之间存在显著差距,覆盖性判断在不完整推理中系统性膨胀,这些发现为LLM评判者的选择提供了实用指导。
🎯 应用场景
该研究的潜在应用领域包括教育、自动化推理系统和智能问答等。通过提供更可靠的评估标准,C2-Faith可以帮助开发更高效的LLM,提升其在复杂推理任务中的表现,未来可能对AI系统的可信度和透明度产生深远影响。
📄 摘要(原文)
Large language models (LLMs) are increasingly used as judges of chain-of-thought (CoT) reasoning, but it remains unclear whether they can reliably assess process faithfulness rather than just answer plausibility. We introduce C2-Faith, a benchmark built from PRM800K that targets two complementary dimensions of faithfulness: causality (does each step logically follow from prior context?) and coverage (are essential intermediate inferences present?). Using controlled perturbations, we create examples with known causal error positions by replacing a single step with an acausal variant, and with controlled coverage deletions at varying deletion rates (scored against reference labels). We evaluate three frontier judges under three tasks: binary causal detection, causal step localization, and coverage scoring. The results show that model rankings depend strongly on task framing, with no single judge dominating all settings; all judges exhibit a substantial gap between detecting an error and localizing it; and coverage judgments are systematically inflated for incomplete reasoning. These findings clarify when LLM judges are dependable and where they fail, and provide practical guidance for selecting judges in process-level evaluation