Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation
作者: Hongliu Cao, Ilias Driouich, Eoin Thomas
分类: cs.AI
发布日期: 2026-03-03
💡 一句话要点
提出程序感知评估(PAE)框架,揭示LLM Agent任务完成中的隐蔽性错误。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 程序感知评估 一致性检查 隐蔽性错误 多维评估
📋 核心要点
- 现有LLM Agent评估侧重于任务完成,忽略了Agent执行过程的正确性与合理性,可能导致对Agent能力的误判。
- 提出程序感知评估(PAE)框架,通过结构化观察Agent行为,评估其在效用性、效率、交互质量和程序完整性等多方面的表现。
- 实验表明,大量基准测试报告的成功案例存在隐蔽性错误,PAE能够有效识别这些错误,并影响模型排名。
📝 摘要(中文)
基于大型语言模型(LLM)的Agent越来越多地应用于高风险场景,但目前的基准测试主要评估任务是否完成,而忽略了完成的方式。本文提出了程序感知评估(PAE)框架,该框架将Agent的程序形式化为结构化观察,并揭示了Agent观察、沟通和执行之间的一致性关系。PAE从多个互补维度(效用性、效率、交互质量、程序完整性)评估Agent,并应用多维门控,从根本上取消不合格的结果。在tau-bench上评估最先进的LLM Agent,在维度、合规性和基准测试层面都获得了发现。在维度层面,这些维度捕捉了非冗余的失败模式:效用性掩盖了可靠性差距,速度并不意味着精度,简洁性并不能预测意图的遵守。在程序合规性层面,基准测试报告的成功案例中有27-78%是隐蔽性成功,掩盖了交互和完整性方面的违规行为。此外,门控大大降低了Pass^4率,并影响了模型排名。对隐蔽性成功案例的分析揭示了每个模型独特的失败特征:GPT-5将错误分散在策略、执行和意图维度上;Kimi-K2-Thinking将78%的违规行为集中在策略忠实性和合规性上;而Mistral-Large-3主要表现为忠实性失败。在基准测试层面,我们的分析揭示了基准测试设计的结构性缺陷,包括任务范围差距、矛盾的奖励信号以及产生意外成功的模拟器伪影。
🔬 方法详解
问题定义:现有LLM Agent的评估主要关注任务是否完成,而忽略了Agent执行任务的过程是否符合预期,是否存在违反程序规范、沟通不畅等问题。这种片面的评估方式可能导致对Agent能力的过高估计,尤其是在高风险应用场景下,Agent的错误行为可能造成严重后果。
核心思路:PAE的核心在于将Agent的执行过程形式化为结构化的观察序列,并定义Agent在不同阶段的行为应该满足的一致性关系。通过检查Agent的行为是否符合这些一致性关系,可以发现Agent在执行过程中存在的各种问题,例如策略不忠实、执行错误、意图偏差等。
技术框架:PAE框架包含以下几个主要模块:1) 程序定义:将Agent的任务执行过程定义为一系列步骤,并明确每个步骤的预期行为和约束条件。2) 行为观察:记录Agent在每个步骤中的行为,包括Agent的观察、沟通和执行。3) 一致性检查:根据程序定义,检查Agent的行为是否符合预期的一致性关系。4) 多维评估:从效用性、效率、交互质量和程序完整性等多个维度评估Agent的表现。5) 门控机制:根据一致性检查的结果,对Agent的成功案例进行过滤,排除存在隐蔽性错误的案例。
关键创新:PAE的关键创新在于提出了程序感知的评估方法,将Agent的执行过程纳入评估范围,从而能够更全面、更准确地评估Agent的能力。与传统的只关注任务完成的评估方法相比,PAE能够发现Agent在执行过程中存在的各种问题,并提供更细粒度的评估结果。
关键设计:PAE的关键设计包括:1) 程序表示:如何有效地表示Agent的任务执行过程,以便进行一致性检查。2) 一致性规则:如何定义Agent在不同阶段的行为应该满足的一致性关系。3) 多维评估指标:如何选择合适的评估指标,以全面评估Agent的表现。4) 门控阈值:如何设置门控阈值,以排除存在隐蔽性错误的案例。
📊 实验亮点
实验结果表明,在tau-bench基准测试中,27-78%的成功案例存在隐蔽性错误,这些错误被传统的评估方法所忽略。PAE能够有效识别这些错误,并显著降低Pass^4率。此外,PAE还揭示了不同LLM Agent在策略、执行和意图等方面的不同失败特征,为Agent的改进提供了有价值的参考。
🎯 应用场景
PAE框架可应用于各种需要LLM Agent参与的复杂任务,例如自动化客服、智能家居控制、金融交易等。通过更全面地评估Agent的能力,可以提高Agent的可靠性和安全性,降低Agent在实际应用中出现错误的风险。此外,PAE还可以用于指导Agent的训练和优化,提高Agent的整体性能。
📄 摘要(原文)
Large Language Model (LLM)-based agents are increasingly adopted in high-stakes settings, but current benchmarks evaluate mainly whether a task was completed, not how. We introduce Procedure-Aware Evaluation (PAE), a framework that formalizes agent procedures as structured observations and exposes consistency relationships between what agents observe, communicate, and execute. PAE evaluates agents along complementary axes (Utility, Efficiency, Interaction Quality, Procedural Integrity) and applies multi-dimensional gating that categorically disqualifies corrupt outcomes. Evaluating state-of-the-art LLM agents on tau-bench yields findings at the axis, compliance, and benchmark levels. At the axis level, the dimensions capture non-redundant failure modes: utility masks reliability gaps, speed does not imply precision, and conciseness does not predict intent adherence. At the procedural compliance level, 27-78% of benchmark reported successes are corrupt successes concealing violations across interaction and integrity. Furthermore, gating substantially collapses Pass^4 rate and affects model rankings. The analysis of corrupt success cases reveals distinctive per-model failure signatures: GPT-5 spreads errors across policy, execution, and intent dimensions; Kimi-K2-Thinking concentrates 78% of violations in policy faithfulness and compliance; and Mistral-Large-3 is dominated by faithfulness failures. At the benchmark level, our analysis exposes structural flaws in the benchmark design, including task scope gaps, contradictory reward signals, and simulator artifacts that produce accidental successes.