NeuroProlog: Multi-Task Fine-Tuning for Neurosymbolic Mathematical Reasoning via the Cocktail Effect
作者: Pratibha Zunjare, Michael Hsiao
分类: cs.AI
发布日期: 2026-03-03
💡 一句话要点
提出NeuroProlog以解决数学推理中的逻辑不一致问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经符号推理 数学推理 多任务学习 可验证推理 程序合成 错误修复 大型语言模型
📋 核心要点
- 现有大型语言模型在数学推理中存在逻辑不一致的问题,导致生成的解答不可靠。
- NeuroProlog通过将数学问题转化为可执行的Prolog程序,采用多任务训练策略来优化推理过程。
- 在GSM8K数据集上,NeuroProlog在多个模型规模上均实现了显著的准确性提升,验证了其有效性。
📝 摘要(中文)
大型语言模型在自然语言任务中表现出色,但在数学推理方面仍不可靠,常常生成流畅但逻辑不一致的解答。本文提出了NeuroProlog,一个神经符号框架,通过将数学文字问题编译为可执行的Prolog程序,确保可验证的推理。我们提出了一种多任务鸡尾酒训练策略,联合优化数学公式到规则翻译、自然语言到程序合成和程序-答案对齐三个目标。实验结果表明,该方法在GSM8K数据集上显著提高了模型的准确性,尤其在不同规模的模型中表现出色。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在数学推理中生成逻辑不一致解答的问题。现有方法缺乏可验证性,导致推理结果不可靠。
核心思路:NeuroProlog通过将数学文字问题转化为可执行的Prolog程序,确保推理的可验证性,并采用多任务训练策略以促进不同任务之间的正向迁移。
技术框架:该框架包括三个主要模块:数学公式到规则的翻译(KB)、自然语言到程序的合成(SOLVE)以及程序与答案的对齐。通过联合优化这些模块,提升了模型的推理能力。
关键创新:最重要的创新在于引入了多任务鸡尾酒训练策略,使得不同任务之间的协同作用能够显著提高模型的推理能力,与传统单任务训练方法形成鲜明对比。
关键设计:在训练过程中,采用了细粒度的错误分类方法,支持迭代程序修复,并量化模型的自我调试能力。
🖼️ 关键图片
📊 实验亮点
在GSM8K数据集上的实验结果显示,NeuroProlog在不同规模的模型中均实现了显著的准确性提升:Qwen-32B模型提升5.23%(p < 0.01),GPT-OSS-20B提升3.43%(p < 0.01),Llama-3B提升5.54%(p < 0.05)。系统的错误分析揭示了不同规模模型的学习动态,特别是在32B模型中,错误修复率达92.7%。
🎯 应用场景
NeuroProlog的研究成果在教育、自动化推理和智能问答系统等领域具有广泛的应用潜力。通过提供可验证的数学推理能力,该框架可以帮助学生和专业人士更好地理解和解决复杂的数学问题,推动智能教育和自动化决策的发展。
📄 摘要(原文)
Large Language Models (LLMs) achieve strong performance on natural language tasks but remain unreliable in mathematical reasoning, frequently generating fluent yet logically inconsistent solutions. We present \textbf{NeuroProlog}, a neurosymbolic framework that ensures verifiable reasoning by compiling math word problems into executable Prolog programs with formal verification guarantees. We propose a multi-task Cocktail training strategy that jointly optimizes three synergistic objectives in a unified symbolic representation space: (i) mathematical formula-to-rule translation (KB), (ii) natural language-to-program synthesis (SOLVE), and (iii) program-answer alignment. This joint supervision enables positive transfer, where symbolic grounding in formula translation directly improves compositional reasoning capabilities. At inference, we introduce an execution-guided decoding pipeline with fine-grained error taxonomy that enables iterative program repair and quantifies model self-debugging capacity. Comprehensive evaluation on GSM8K across four model scales (3B--32B parameters) demonstrates consistent improvements: cocktail training achieves significant accuracy gains of +5.23\% (Qwen-32B, $p < 0.01$), +3.43\% (GPT-OSS-20B, $p < 0.01$), and +5.54\% (Llama-3B, $p < 0.05$) over single-task baselines.Systematic error analysis reveals scale-dependent learning dynamics: at 32B scale, cocktail training transforms unfixable type errors (12\% repair rate) into correctable domain errors (96\% repair rate), achieving 92.7\% overall correction; at 8B scale, the same training eliminates syntactic errors but introduces semantic failures, revealing a critical capacity threshold for type-safe symbolic reasoning.