X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

📄 arXiv: 2603.05290v1 📥 PDF

作者: Gao Tianxi, Cai Yufan, Yuan Yusi, Dong Jin Song

分类: cs.AI

发布日期: 2026-03-05


💡 一句话要点

X-RAY:通过形式化和校准的探针映射大型语言模型的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力 形式化验证 可解释性 结构化分析

📋 核心要点

  1. 现有LLM评估侧重任务准确性,难以区分模式匹配与真正的推理能力,缺乏对模型深层推理机制的理解。
  2. X-RAY系统通过形式化探针,将推理能力建模为可提取的结构函数,并控制探针的结构变化,从而隔离和分析推理能力。
  3. 实验表明LLM在约束细化方面表现较好,但在解空间重构方面性能下降明显,揭示了LLM推理的结构性弱点。

📝 摘要(中文)

大型语言模型(LLMs)取得了令人瞩目的性能,但其推理能力仍然知之甚少。现有的评估主要强调任务层面的准确性,常常将模式匹配与推理能力混淆。我们提出了X-RAY,一个可解释的推理分析系统,它使用校准的、形式验证的探针来映射LLM的推理能力。我们将推理能力建模为可提取的“结构”的函数,并通过约束交互、推理深度和解空间几何等形式属性来操作。X-Ray通过形式化工具生成具有受控结构变化的探针,从而能够通过形式校准和验证精确地隔离增量结构信息。我们在数学、物理和化学等领域,从初级到高级的问题上评估了最先进的LLM。我们的分析揭示了LLM推理中的系统性不对称性:模型对约束细化相对稳健,即附加条件缩小了现有的解空间,但在解空间重构下,性能急剧下降,即修改改变了解流形的底层结构形式。此外,校准的形式探针区分了在标准基准上看起来无法区分的模型,并揭示了结构上可解释而非不透明的失败模式。除了评估之外,我们的框架是无污染的,并支持推理模型的训练和测试。

🔬 方法详解

问题定义:现有的大型语言模型评估方法主要关注任务级别的准确率,难以区分模型是通过简单的模式匹配还是真正的推理能力来解决问题。这种评估方式无法深入了解LLM的推理机制,也难以发现模型在推理过程中的弱点和局限性。因此,需要一种更精细、更可解释的方法来评估LLM的推理能力。

核心思路:X-RAY的核心思路是将LLM的推理能力建模为可提取的“结构”的函数。这里的“结构”指的是问题中存在的约束关系、推理深度、解空间的几何形状等形式属性。通过控制这些结构属性的变化,可以精确地评估LLM在不同结构下的推理表现,从而揭示其推理能力的本质。这种方法借鉴了形式化验证的思想,通过构造具有特定结构属性的探针来“探测”LLM的推理能力。

技术框架:X-RAY系统主要包含以下几个模块:1) 探针生成器:使用形式化工具生成具有受控结构变化的探针。这些探针涵盖了数学、物理、化学等多个领域,难度从初级到高级不等。2) 模型评估器:将生成的探针输入到待评估的LLM中,记录模型的输出结果。3) 结果分析器:对模型的输出结果进行分析,评估模型在不同结构下的推理表现。通过比较模型在不同结构探针上的表现,可以揭示模型对不同结构属性的敏感程度,从而了解其推理能力的局限性。4) 校准与验证模块:对探针进行形式校准和验证,确保探针的结构属性符合预期。

关键创新:X-RAY的关键创新在于其使用形式化的探针来评估LLM的推理能力。与传统的评估方法相比,X-RAY能够更精确地控制问题的结构属性,从而更深入地了解LLM的推理机制。此外,X-RAY还能够揭示LLM在推理过程中的结构性弱点,例如对解空间重构的敏感性。这种结构性的分析结果可以为LLM的改进提供有价值的指导。

关键设计:X-RAY的关键设计包括:1) 探针的结构属性:例如约束交互、推理深度、解空间几何等。这些属性的选择需要根据具体的领域和问题进行调整。2) 探针的生成方法:使用形式化工具生成探针,确保探针的结构属性符合预期。3) 评估指标:例如准确率、召回率、F1值等。这些指标的选择需要根据具体的任务进行调整。4) 校准与验证方法:使用形式化方法对探针进行校准和验证,确保探针的结构属性符合预期。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在约束细化方面表现相对稳健,但在解空间重构方面性能急剧下降。例如,模型在添加更多约束条件缩小解空间时,性能下降较小;但当问题的结构发生改变,例如改变解空间的几何形状时,性能下降明显。此外,X-RAY能够区分在标准基准上表现相似的模型,并揭示模型在推理过程中的结构性弱点。

🎯 应用场景

X-RAY可用于评估和诊断大型语言模型的推理能力,帮助研究人员了解模型的优势和局限性。此外,该框架还可用于指导LLM的训练和改进,例如通过针对模型在特定结构上的弱点进行训练,提高模型的整体推理能力。该研究对于开发更可靠、更可信赖的人工智能系统具有重要意义。

📄 摘要(原文)

Large language models (LLMs) achieve promising performance, yet their ability to reason remains poorly understood. Existing evaluations largely emphasize task-level accuracy, often conflating pattern matching with reasoning capability. We present X-RAY, an explainable reasoning analysis system that maps the LLM reasoning capability using calibrated, formally verified probes. We model reasoning capability as a function of extractable \textit{structure}, operationalized through formal properties such as constraint interaction, reasoning depth, and solution-space geometry. X-Ray generates probes via formal tools with controlled structural variations, enabling precise isolation of incremental structural information through formal calibration and verification. We evaluate state-of-the-art LLMs on problems ranging from junior-level to advanced in mathematics, physics, and chemistry. Our analysis reveals a systematic asymmetry in LLM reasoning: models are relatively robust to constraint refinement, where additional conditions shrink an existing solution space, but degrade sharply under solution-space restructuring, where modifications alter the underlying structural form of the solution manifold. Moreover, calibrated formal probes differentiate models that appear indistinguishable on standard benchmarks and reveal failure modes that are structurally interpretable rather than opaque. Beyond evaluation, our framework is contamination-free and supports the training and testing of reasoning models.