From Implicit to Explicit: Token-Efficient Logical Supervision for Mathematical Reasoning in LLMs

作者: Shaojie Wang, Liang Zhang

分类: cs.CL, cs.AI

发布日期: 2026-01-07

💡 一句话要点

提出FSLR框架，通过显式逻辑监督提升LLM在数学推理中的token效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学推理 大型语言模型 逻辑关系理解 显式监督 思维链微调

📋 核心要点

现有LLM在数学问题求解中逻辑推理能力不足，主要依赖模式匹配，逻辑关系理解错误率高。
FSLR框架通过显式监督第一步规划，即变量选择和操作应用，直接训练模型理解逻辑关系。
实验表明，FSLR在多个数据集上优于CoT-SFT，训练速度提升4-6倍，token消耗降低80%以上。

📝 摘要（中文）

最近的研究表明，大型语言模型(LLM)在解决数学问题时，逻辑推理能力有限，更多地依赖于模式匹配和记忆。我们系统地分析了这一局限性，重点关注逻辑关系理解，这是真正逻辑推理的核心能力。分析表明，与此能力相关的错误占错误预测的90%以上，并且思维链监督微调(CoT-SFT)未能显著减少这些错误。为了解决这个瓶颈，我们提出了First-Step Logical Reasoning (FSLR)，一个针对逻辑关系理解的轻量级训练框架。我们的关键见解是，第一步规划——识别要使用的变量和要应用的操作——鼓励模型直接从问题陈述中推导出逻辑关系。通过在这个孤立的步骤上训练模型，FSLR为逻辑关系理解提供了显式监督，而CoT-SFT则将这些关系隐式地嵌入到完整的解决方案轨迹中。在多个模型和数据集上的大量实验表明，FSLR在同分布和异分布设置下始终优于CoT-SFT，平均改进分别为3.2%和4.6%。此外，FSLR实现了4-6倍的训练速度提升，并将训练token消耗降低了80%以上。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在数学推理中逻辑关系理解能力不足的问题。现有方法，如思维链微调（CoT-SFT），虽然能提升LLMs的推理能力，但未能有效解决逻辑关系理解错误，此类错误占据了错误预测的绝大部分。CoT-SFT将逻辑关系隐式地嵌入到完整的解题轨迹中，缺乏对逻辑关系理解的显式监督。

核心思路：论文的核心思路是显式地监督LLM学习数学问题中的逻辑关系。作者认为，解题的第一步，即确定使用哪些变量以及应用什么操作，是理解逻辑关系的关键。通过专注于训练模型完成这一步，可以有效地提升模型对逻辑关系的理解能力。这种方法避免了CoT-SFT中逻辑关系理解的隐式学习，从而更直接、更高效地提升模型的推理能力。

技术框架：FSLR框架主要包含以下几个阶段：1) 数据准备：构建包含数学问题及其第一步规划的数据集，第一步规划明确指出需要使用的变量和操作。2) 模型训练：使用准备好的数据集对LLM进行微调，目标是让模型能够准确地预测给定问题的第一步规划。3) 模型评估：在不同的数据集上评估模型的性能，包括同分布和异分布设置，并与CoT-SFT等基线方法进行比较。

关键创新：FSLR的关键创新在于其显式监督逻辑关系理解的方式。与CoT-SFT等隐式学习方法不同，FSLR直接训练模型预测解题的第一步规划，从而迫使模型显式地理解问题中的逻辑关系。此外，FSLR还具有更高的token效率和更快的训练速度，使其成为一种更具吸引力的解决方案。

关键设计：FSLR的关键设计包括：1) 第一步规划的定义：明确定义了第一步规划，即确定使用哪些变量和应用什么操作。2) 损失函数：使用交叉熵损失函数来训练模型预测第一步规划。3) 数据集构建：精心构建包含数学问题及其第一步规划的数据集，确保数据的质量和多样性。4) 轻量级训练：由于只训练第一步，因此训练过程更加轻量级，可以使用更少的token和更短的时间。

📊 实验亮点

实验结果表明，FSLR在同分布和异分布数据集上均优于CoT-SFT，平均提升分别为3.2%和4.6%。更重要的是，FSLR实现了4-6倍的训练速度提升，并将训练token消耗降低了80%以上。这些结果表明，FSLR是一种更有效、更高效的数学推理训练方法。

🎯 应用场景

FSLR框架可应用于提升LLM在数学、物理、化学等领域的推理能力，尤其是在需要复杂逻辑推理的场景下。该方法能够提高自动化问题求解系统的准确性和效率，并可应用于教育领域，辅助学生理解数学概念和解题思路。此外，FSLR的token高效性使其在资源受限的环境中也具有应用潜力。

📄 摘要（原文）

Recent studies reveal that large language models (LLMs) exhibit limited logical reasoning abilities in mathematical problem-solving, instead often relying on pattern-matching and memorization. We systematically analyze this limitation, focusing on logical relationship understanding, which is a core capability underlying genuine logical reasoning, and reveal that errors related to this capability account for over 90\% of incorrect predictions, with Chain-of-Thought Supervised Fine-Tuning (CoT-SFT) failing to substantially reduce these errors. To address this bottleneck, we propose First-Step Logical Reasoning (FSLR), a lightweight training framework targeting logical relationship understanding. Our key insight is that the first planning step-identifying which variables to use and which operation to apply-encourages the model to derive logical relationships directly from the problem statement. By training models on this isolated step, FSLR provides explicit supervision for logical relationship understanding, unlike CoT-SFT which implicitly embeds such relationships within complete solution trajectories. Extensive experiments across multiple models and datasets demonstrate that FSLR consistently outperforms CoT-SFT under both in-distribution and out-of-distribution settings, with average improvements of 3.2\% and 4.6\%, respectively. Moreover, FSLR achieves 4-6x faster training and reduces training token consumption by over 80\%.

From Implicit to Explicit: Token-Efficient Logical Supervision for Mathematical Reasoning in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册