Agentified Assessment of Logical Reasoning Agents

📄 arXiv: 2603.02788v1 📥 PDF

作者: Zhiyu Ni, Yifeng Xiao, Zheng Liang

分类: cs.AI

发布日期: 2026-03-03

备注: Accepted at ICLR 2026 Agents in the Wild (AIWILD) Workshop. 5 pages, 2 figures, 1 table


💡 一句话要点

提出基于Agent的逻辑推理评估框架,提升评估的可复现性、可审计性和鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 逻辑推理 Agent评估 自动化评估 可复现性 一阶逻辑 形式化方法 SMT求解

📋 核心要点

  1. 现有逻辑推理Agent的评估方法缺乏可复现性和可审计性,难以应对执行失败。
  2. 提出Agent化的评估框架,通过评估Agent控制任务发布、资源分配和结果解析,实现标准化评估。
  3. 实验表明,该框架下自动形式化Agent在FOLIO数据集上优于Chain-of-Thought基线,验证了框架的有效性。

📝 摘要(中文)

本文提出了一个用于评估和基准测试逻辑推理Agent的框架,该框架保证评估本身是可复现的、可审计的,并且对执行失败具有鲁棒性。该框架基于Agent化的评估方法,使用一个评估Agent来发布任务、强制执行计算预算、解析输出并记录结构化的失败类型,而待测试的Agent只需要暴露一个标准化的Agent间接口。作为一个案例研究,我们在一个经过求解器验证和修复的FOLIO数据集上,对一阶逻辑(FOL)推理的自动形式化Agent进行了基准测试。该Agent将自然语言前提和结论翻译成可执行的Z3Py程序,并采用可满足性模理论(SMT)求解来确定逻辑蕴含关系。在清理后的FOLIO验证集上,该自动形式化Agent在评估Agent协议下实现了86.70%的准确率,优于Chain-of-Thought基线(73.89%)。

🔬 方法详解

问题定义:论文旨在解决逻辑推理Agent评估中存在的不可复现、不可审计以及对执行失败缺乏鲁棒性的问题。现有评估方法通常依赖人工评估或者简单的脚本,难以保证评估过程的标准化和客观性,并且无法有效处理Agent执行过程中可能出现的错误。

核心思路:论文的核心思路是将评估过程本身也Agent化,即引入一个评估Agent来负责任务的发布、资源的管理、结果的解析以及错误类型的记录。通过这种方式,可以实现评估过程的自动化、标准化和可控性,从而提高评估的可复现性、可审计性和鲁棒性。

技术框架:该框架包含两个主要Agent:评估Agent和待评估Agent。评估Agent负责:1) 根据预定义的任务集生成逻辑推理任务;2) 向待评估Agent发送任务;3) 监控待评估Agent的执行情况,包括时间预算和资源使用;4) 解析待评估Agent的输出结果;5) 根据预定义的规则判断推理结果的正确性;6) 记录评估过程中的各种信息,包括成功案例、失败案例以及失败类型。待评估Agent则只需要暴露一个标准的Agent间接口,接收任务并返回推理结果。

关键创新:该框架的关键创新在于将评估过程本身Agent化,从而实现了评估过程的自动化、标准化和可控性。与传统的评估方法相比,该框架可以更好地处理执行失败的情况,并且可以提供更详细的评估报告,包括失败类型和错误原因。此外,该框架还支持对评估过程进行审计,从而保证评估结果的客观性和公正性。

关键设计:评估Agent使用预定义的任务集,任务集包含自然语言描述的逻辑前提和结论。评估Agent将这些自然语言描述转换为可执行的Z3Py程序,并使用SMT求解器来验证逻辑蕴含关系。评估Agent还定义了一系列规则来判断推理结果的正确性,并记录评估过程中的各种信息。待评估Agent需要实现一个标准的Agent间接口,该接口接收自然语言描述的逻辑前提和结论,并返回推理结果。评估Agent使用时间预算来限制待评估Agent的执行时间,以防止资源耗尽。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在清理后的FOLIO验证集上,基于该框架评估的自动形式化Agent实现了86.70%的准确率,显著优于Chain-of-Thought基线(73.89%)。这一结果验证了该框架的有效性,并表明自动形式化方法在逻辑推理任务中具有很大的潜力。

🎯 应用场景

该研究成果可应用于各种需要逻辑推理能力的智能Agent的评估和基准测试,例如自然语言推理、知识图谱推理、智能问答等领域。该框架能够帮助研究人员更客观、更高效地评估Agent的性能,从而推动相关技术的发展。此外,该框架还可以用于自动化测试和调试逻辑推理系统,提高系统的可靠性和稳定性。

📄 摘要(原文)

We present a framework for evaluating and benchmarking logical reasoning agents when assessment itself must be reproducible, auditable, and robust to execution failures. Building on agentified assessment, we use an assessor agent to issue tasks, enforce execution budgets, parse outputs, and record structured failure types, while the agent under test only needs to expose a standardized agent-to-agent interface. As a case study, we benchmark an auto-formalization agent for first-order logic (FOL) reasoning on a solver-verified and repaired split of FOLIO. The agent translates natural language premises and conclusions into executable Z3Py programs and employs satisfiability modulo theories (SMT) solving to determine logical entailment. On the cleaned FOLIO validation set, the auto-formalization agent achieves 86.70% accuracy under the assessor protocol, outperforming a chain-of-thought baseline (73.89%).