Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem

📄 arXiv: 2509.06809v1 📥 PDF

作者: Valentin Quesnel, Damien Sileo

分类: cs.CL, cs.AI

发布日期: 2025-09-08

🔗 代码/项目: GITHUB


💡 一句话要点

利用TPTP生态系统和饱和驱动的数据集生成方法,提升LLM的数学推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 自动定理证明 数据集生成 TPTP E-prover 符号推理

📋 核心要点

  1. 现有LLM在数学推理方面面临高质量、逻辑严谨数据稀缺的挑战,阻碍了其能力的进一步提升。
  2. 该研究利用E-prover在TPTP公理库上的饱和能力,自动生成大规模、保证有效的数学定理数据集。
  3. 零样本实验表明,现有模型在深度结构推理任务上表现不佳,该框架可用于诊断并提供训练数据。

📝 摘要(中文)

高质量、逻辑严谨的数据匮乏是提升大型语言模型(LLMs)数学推理能力的关键瓶颈。本研究通过将数十年的自动定理证明研究转化为可扩展的数据引擎来应对这一挑战。该框架利用E-prover在庞大的TPTP公理库上的饱和能力来推导出大量、保证有效的定理语料库,而不是依赖于容易出错的LLM或像Lean和Isabelle这样复杂的证明助手语法。该流程简单且有原则:饱和公理,过滤“有趣的”定理,并生成任务。由于没有LLM参与,因此从构造上消除了事实错误。然后,这些纯粹的符号数据被转换为三个难度可控的挑战:蕴含验证、前提选择和证明重构。对前沿模型的零样本实验揭示了一个明显的弱点:在需要深度结构推理的任务上,性能会崩溃。该框架既提供了衡量这一差距的诊断工具,又提供了可扩展的符号训练数据来源来解决这个问题。代码和数据已公开。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在数学推理方面因缺乏高质量训练数据而表现不佳的问题。现有方法要么依赖于容易出错的LLM生成数据,要么依赖于复杂的证明助手,这些方法都存在局限性。

核心思路:论文的核心思路是利用自动定理证明器(特别是E-prover)的饱和能力,从TPTP(Thousands of Problems for Theorem Provers)公理库中自动生成大量逻辑上有效的数学定理。这种方法避免了LLM生成数据时可能引入的错误,并提供了一种可扩展的数据生成方案。

技术框架:整体流程包括以下几个阶段:1) 公理饱和:使用E-prover对TPTP公理库中的公理进行饱和,生成新的定理。2) 定理过滤:根据一定的标准(例如定理的复杂度和“有趣”程度)过滤生成的定理,选择有价值的定理。3) 任务生成:将过滤后的定理转化为三种难度可控的数学推理任务:蕴含验证、前提选择和证明重构。4) 数据转换:将符号数据转换为适合LLM训练的格式。

关键创新:最重要的技术创新点在于利用自动定理证明器的饱和能力来生成数学推理数据,从而保证了数据的逻辑有效性,并避免了LLM生成数据时可能引入的错误。与现有方法相比,该方法具有更高的可靠性和可扩展性。

关键设计:论文中涉及的关键设计包括:1) 如何定义和衡量定理的“有趣”程度,以便选择有价值的定理。2) 如何将生成的定理转化为适合LLM训练的数学推理任务。3) 如何控制生成任务的难度,以便逐步提升LLM的推理能力。具体的参数设置和损失函数等技术细节在论文中可能没有详细描述,需要参考相关文献。

📊 实验亮点

论文通过零样本实验验证了该框架的有效性,结果表明,现有模型在需要深度结构推理的任务上表现不佳,这突显了该框架在诊断LLM推理能力方面的价值。该框架提供了一种可扩展的符号训练数据来源,可以有效提升LLM的数学推理能力。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于提升LLM在数学、逻辑推理等领域的性能,例如自动定理证明、数学问题求解、代码验证等。通过提供高质量的训练数据,可以帮助LLM更好地理解和运用数学知识,从而在科学研究、工程设计等领域发挥更大的作用。未来,该方法可以扩展到其他领域,例如自然语言理解和知识图谱推理。

📄 摘要(原文)

The scarcity of high-quality, logically sound data is a critical bottleneck for advancing the mathematical reasoning of Large Language Models (LLMs). Our work confronts this challenge by turning decades of automated theorem proving research into a scalable data engine. Rather than relying on error-prone LLMs or complex proof-assistant syntax like Lean and Isabelle, our framework leverages E-prover's saturation capabilities on the vast TPTP axiom library to derive a massive, guaranteed-valid corpus of theorems. Our pipeline is principled and simple: saturate axioms, filter for "interesting" theorems, and generate tasks. With no LLMs in the loop, we eliminate factual errors by construction. This purely symbolic data is then transformed into three difficulty-controlled challenges: entailment verification, premise selection, and proof reconstruction. Our zero-shot experiments on frontier models reveal a clear weakness: performance collapses on tasks requiring deep, structural reasoning. Our framework provides both the diagnostic tool to measure this gap and a scalable source of symbolic training data to address it. We make the code and data publicly available. https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1