Pencil Puzzle Bench: A Benchmark for Multi-Step Verifiable Reasoning

📄 arXiv: 2603.02119v1 📥 PDF

作者: Justin Waugh

分类: cs.AI, cs.GT, cs.LG

发布日期: 2026-03-02


💡 一句话要点

Pencil Puzzle Bench:一个用于多步可验证推理的基准测试框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多步推理 约束满足问题 语言模型评估 可验证推理 铅笔谜题

📋 核心要点

  1. 现有语言模型在复杂推理任务中面临挑战,缺乏细粒度的验证机制。
  2. Pencil Puzzle Bench利用铅笔谜题的可验证性,提供细粒度的反馈信号,促进模型推理。
  3. 实验表明,通过增加推理努力和迭代验证,模型性能显著提升,验证了框架的有效性。

📝 摘要(中文)

本文提出了Pencil Puzzle Bench,一个通过铅笔谜题评估大型语言模型推理能力的框架。铅笔谜题是一类与NP完全问题密切相关的约束满足问题,具有确定性的步级验证。从包含94种类型、62231个具有唯一解的谜题数据库中,我们选取了涵盖20种类型的300个谜题作为基准,并评估了来自11个提供商的51个模型,评估模式分为直接提问(单次)和智能体模式(多轮迭代验证)。我们基准测试的一个关键区别在于,每个中间棋盘状态都可以根据特定类型的约束进行检查,将错误定位到违反的确切规则,从而为过程监督和强化学习提供密集的、基于每一步的奖励信号的基础设施。

🔬 方法详解

问题定义:现有的大型语言模型在解决需要多步推理的问题时,缺乏有效的验证机制,难以定位错误并进行纠正。尤其是在约束满足问题中,模型可能产生不符合规则的中间状态,导致最终结果错误。现有的评估方法通常只关注最终结果的正确性,而忽略了中间推理过程的质量。

核心思路:本文的核心思路是利用铅笔谜题的特性,将复杂的推理过程分解为多个可验证的步骤。由于每个步骤都必须满足特定的约束条件,因此可以对每个中间状态进行验证,从而精确定位错误并提供反馈信号。这种细粒度的验证机制可以帮助模型更好地学习推理规则,并提高解决问题的能力。

技术框架:Pencil Puzzle Bench框架包含以下几个主要组成部分:1) 包含大量不同类型铅笔谜题的数据库;2) 用于评估语言模型的两种模式:直接提问(单次)和智能体模式(多轮迭代验证);3) 用于验证每个中间棋盘状态是否符合特定类型约束的验证器;4) 用于记录模型推理过程和性能的评估指标。在智能体模式下,模型通过与环境进行交互,逐步解决谜题,并根据验证器的反馈进行调整。

关键创新:该基准测试的关键创新在于其细粒度的可验证性。与传统的只关注最终结果的评估方法不同,Pencil Puzzle Bench可以对每个中间推理步骤进行验证,从而提供更丰富的反馈信号。这种细粒度的反馈信号可以帮助模型更好地学习推理规则,并提高解决问题的能力。此外,该基准测试还提供了一个包含大量不同类型铅笔谜题的数据库,可以用于评估模型在不同类型推理任务中的表现。

关键设计:在智能体模式下,模型需要与环境进行交互,逐步解决谜题。环境会根据模型的动作更新棋盘状态,并使用验证器检查新的棋盘状态是否符合规则。如果棋盘状态不符合规则,环境会向模型提供反馈信号,指出违反了哪些规则。模型可以根据反馈信号调整其策略,并尝试新的动作。实验中使用了不同的模型,并调整了推理努力程度和迭代次数等参数,以评估模型在不同条件下的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过增加推理努力,GPT-5.2的性能提升了81倍。在智能体模式下,Claude Opus 4.6的性能从0.3%提升到30.0%,GPT-5.2@xhigh的性能从20.2%提升到56.0%。智能体模式的尝试平均需要29轮迭代和17分钟,最长的尝试超过1221轮迭代和14.3小时,充分验证了模型在长上下文利用和推理方面的能力。

🎯 应用场景

Pencil Puzzle Bench可用于评估和提升大型语言模型在多步推理、约束满足和规划等领域的性能。其细粒度的验证机制为过程监督和强化学习提供了基础,有助于开发更可靠、更智能的AI系统。该基准测试还可应用于教育领域,帮助学生学习推理和解决问题的能力。

📄 摘要(原文)

We introduce Pencil Puzzle Bench, a framework for evaluating large language model reasoning through pencil puzzles, a family of constraint-satisfaction problems closely related to NP-complete problems, with deterministic, step-level verification. From a database of 62,231 puzzles across 94 varieties with verified unique solutions, we select a benchmark of 300 puzzles spanning 20 varieties and evaluate 51 models from 11 providers in two modes: direct ask (single-shot) and agentic (multi-turn with iterative verification). A key differentiator of our benchmark is that every intermediate board state can be checked against variety-specific constraints, localizing errors to the exact rule violated, providing the infrastructure for dense, per-move reward signals for process supervision and reinforcement learning. Our evaluation reveals two distinct axes of capability: (1) reasoning effort scaling, where GPT-5.2 improves 81x from no reasoning to maximum effort; and (2) agentic iteration, where Claude Opus 4.6 rises from 0.3% to 30.0% through iterative checking, while GPT-5.2@xhigh improves from 20.2% to 56.0%. Agentic attempts span a median of 29 turns over 17 minutes, with the longest exceeding 1,221 turns and 14.3 hours - a demanding test of long-context utilization, not just reasoning.