ThinknCheck: Grounded Claim Verification with Compact, Reasoning-Driven, and Interpretable Models
作者: Delip Rao, Feijiang Han, Chris Callison-Burch
分类: cs.AI, cs.CL
发布日期: 2026-04-02
备注: 15 pages
💡 一句话要点
ThinknCheck:提出一种基于紧凑、可解释模型的、推理驱动的、可信的声明验证方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 声明验证 可解释性AI 推理生成 监督学习 知识图谱 自然语言处理 Gemma模型
📋 核心要点
- 现有声明验证模型通常参数量巨大,计算成本高昂,且缺乏可解释性,难以理解其决策过程。
- ThinknCheck通过生成结构化的推理过程,再进行二元判断,实现了紧凑、可解释的声明验证,提升了资源效率。
- 实验表明,ThinknCheck在多个数据集上超越了参数量更大的模型,证明了显式监督推理的有效性。
📝 摘要(中文)
本文提出ThinknCheck,一个拥有10亿参数的验证器,用于基于事实依据的声明验证。该验证器首先生成一个简短、结构化的推理过程,然后给出一个二元判断结果。我们构建了一个名为LLMAggreFact-Think的、包含24.1k个推理增强数据的训练集,该数据集来源于LLMAggreFact。我们对一个4-bit Gemma3模型进行微调,使其遵循这种格式。在LLMAggreFact数据集上,ThinknCheck达到了78.1%的平衡准确率(BAcc),超过了MiniCheck-7B (77.4%),但参数量减少了7倍;移除推理步骤后,BAcc降至57.5%。在SciFact数据集上,ThinknCheck达到了64.7%的BAcc,相比MiniCheck-7B提升了14.7%。相比之下,在基础Gemma3-1B模型上使用零样本链式思考会损害准确率,使其低于直接回答;使用简单格式+准确率奖励进行偏好优化,其性能不如监督推理。为了探究后者,我们引入了GSMClaims以及一个领域专业变体ThinknCheck-Science,它在包括GSMClaims在内的基准测试中有所改进,在GSMClaims上达到了61.0%的准确率。总而言之,显式的、监督的推理使得紧凑的验证器具有竞争力,同时保持了资源效率和可解释性。
🔬 方法详解
问题定义:论文旨在解决现有声明验证模型参数量大、计算成本高、可解释性差的问题。现有方法通常依赖于大型语言模型,资源消耗巨大,且难以理解模型的决策依据。
核心思路:论文的核心思路是利用显式的、监督的推理过程,使得模型在给出最终判断之前,先生成一个简短、结构化的推理过程。这种方式不仅可以提高模型的准确率,还可以增强模型的可解释性,并降低模型所需的参数量。
技术框架:ThinknCheck的整体框架包含两个主要阶段:推理生成阶段和判断阶段。在推理生成阶段,模型根据输入的声明和证据,生成一个结构化的推理过程。在判断阶段,模型根据生成的推理过程,给出一个二元判断结果(支持或反对)。模型使用微调后的Gemma3模型作为基础架构。
关键创新:论文的关键创新在于引入了显式的推理过程,并使用监督学习的方式训练模型生成该推理过程。与传统的端到端模型相比,这种方法可以显著提高模型的可解释性,并降低模型所需的参数量。此外,论文还构建了一个新的推理增强数据集LLMAggreFact-Think,用于训练模型生成高质量的推理过程。
关键设计:论文使用4-bit Gemma3模型作为基础模型,并使用LLMAggreFact-Think数据集进行微调。训练目标是让模型生成与人工标注的推理过程尽可能相似的推理过程,并给出正确的判断结果。论文还尝试了不同的训练方法,包括零样本链式思考和偏好优化,但发现监督推理的效果最好。
🖼️ 关键图片
📊 实验亮点
ThinknCheck在LLMAggreFact数据集上达到了78.1%的平衡准确率(BAcc),超过了MiniCheck-7B (77.4%),但参数量减少了7倍。在SciFact数据集上,ThinknCheck达到了64.7%的BAcc,相比MiniCheck-7B提升了14.7%。在GSMClaims数据集上,ThinknCheck-Science达到了61.0%的准确率。
🎯 应用场景
ThinknCheck可应用于新闻事实核查、科学研究验证、金融风险评估等领域。通过提供可解释的推理过程,帮助用户理解模型的决策依据,提高对模型预测结果的信任度。该研究有助于构建更可靠、更透明的人工智能系统。
📄 摘要(原文)
We present ThinknCheck, a 1B-parameter verifier for grounded claim verification that first produces a short, structured rationale and then a binary verdict. We construct LLMAggreFact-Think, a 24.1k reasoning-augmented training set derived from LLMAggreFact, and fine-tune a 4-bit Gemma3 model to follow this format. On LLMAggreFact, ThinknCheck attains 78.1 balanced accuracy (BAcc), surpassing MiniCheck-7B (77.4) with 7x fewer parameters; removing the reasoning step reduces BAcc to 57.5. On SciFact, ThinknCheck reaches 64.7 BAcc, a +14.7 absolute gain over MiniCheck-7B. By contrast, zero-shot chain-of-thought on the base Gemma3-1B harms accuracy relative to direct answers, and preference optimization with a simple format+accuracy reward underperforms supervised reasoning. To probe the latter, we introduce GSMClaims and a domain-specialized variant, ThinknCheck-Science, which improves across benchmarks, including 61.0\% accuracy on GSMClaims. Overall, explicit, supervised reasoning enables compact verifiers that are competitive while remaining resource-efficient and interpretable.