Beyond Symbolic Solving: Multi Chain-of-Thought Voting for Geometric Reasoning in Large Language Models

📄 arXiv: 2604.00890v1 📥 PDF

作者: Md. Abu Bakor Siddique, Shahrin Hossain, Sadman Ahmed Siam, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan

分类: cs.AI, cs.CL, cs.CV

发布日期: 2026-04-01

备注: Under review, 4 figures, 7 tables


💡 一句话要点

提出MARS-GPS,通过多链思考投票提升大语言模型在几何推理上的性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 几何问题求解 大语言模型 多链思考 投票机制 逻辑推理 Python代码验证 数值计算

📋 核心要点

  1. 现有几何问题求解方法在逻辑推理方面存在不足,通常依赖于单链思考,限制了性能。
  2. MARS-GPS通过生成多个并行推理链,并结合Python代码验证,增强了模型的逻辑推理能力。
  3. 实验表明,MARS-GPS在Geometry3K数据集上显著优于现有方法,证明了其有效性。

📝 摘要(中文)

几何问题求解(GPS)是提升大语言模型数学推理能力的核心,因为它需要结合图解理解、符号操作和逻辑推理。现有研究主要集中在同步图解描述与文本字面量并解决问题,采用神经、符号或神经符号方法。但这仅解决了图解理解和符号操作,而逻辑推理发展不足,通常仅限于单链思考(CoT)。为解决此弱点,本文提出MARS-GPS,它生成多个并行推理过程,通过Python代码执行进行数值验证,使用token级熵作为置信度信号进行排序,并通过多阶段投票和自验证流程聚合答案。实验结果表明,MARS-GPS在Geometry3K上实现了88.8%的准确率,相比现有技术水平提高了近+11%,并且随着rollout数量从1增加到16,准确率持续提高(在消融子集上+6.0%)。代码和数据已匿名发布。

🔬 方法详解

问题定义:论文旨在提升大语言模型在几何问题求解任务上的性能。现有方法主要痛点在于逻辑推理能力不足,通常依赖于单链思考,容易陷入局部最优解,难以处理复杂几何问题。

核心思路:论文的核心思路是生成多个并行的推理链(Chain-of-Thought),并利用投票机制选择最优答案。通过增加推理路径的多样性,提高模型找到正确解的概率。同时,引入Python代码执行进行数值验证,进一步提升答案的可靠性。

技术框架:MARS-GPS包含以下主要阶段:1) 生成多个并行的推理链,每个链条都包含一系列的推理步骤和相应的Python代码;2) 使用token级别的熵作为置信度信号对每个推理链进行排序;3) 通过多阶段投票机制聚合所有推理链的答案,选择最可靠的答案;4) 使用自验证流程对最终答案进行验证,确保答案的正确性。

关键创新:最重要的技术创新点在于多链思考投票机制。与传统的单链思考方法相比,MARS-GPS能够探索更多的解空间,从而提高找到正确答案的概率。此外,使用token级别的熵作为置信度信号,能够更准确地评估每个推理链的质量。

关键设计:论文中一个关键的设计是使用Python代码执行进行数值验证。通过将推理过程中的数值计算交给Python解释器,可以避免大语言模型在数值计算上的固有缺陷,提高答案的准确性。此外,多阶段投票机制的设计也至关重要,它能够有效地聚合多个推理链的答案,并选择最可靠的答案。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

MARS-GPS在Geometry3K数据集上取得了显著的性能提升,达到了88.8%的准确率,相比之前的state-of-the-art方法提升了近11%。消融实验表明,随着并行推理链数量的增加,模型性能持续提升,证明了多链思考投票机制的有效性。在消融子集上,从1个rollout增加到16个rollout,准确率提升了6.0%。

🎯 应用场景

该研究成果可应用于智能教育、自动化几何设计、机器人导航等领域。通过提升大语言模型在几何推理方面的能力,可以开发更智能的教学辅助工具,提高几何设计效率,并为机器人提供更准确的环境感知和路径规划能力。未来,该方法有望扩展到其他需要复杂推理的数学问题求解任务中。

📄 摘要(原文)

Geometric Problem Solving (GPS) remains at the heart of enhancing mathematical reasoning in large language models because it requires the combination of diagrammatic understanding, symbolic manipulation and logical inference. In existing literature, researchers have chiefly focused on synchronising the diagram descriptions with text literals and solving the problem. In this vein, they have either taken a neural, symbolic or neuro-symbolic approach. But this solves only the first two of the requirements, namely diagrammatic understanding and symbolic manipulation, while leaving logical inference underdeveloped. The logical inference is often limited to one chain-of-thought (CoT). To address this weakness in hitherto existing models, this paper proposes MARS-GPS, that generates multiple parallel reasoning rollouts augmented with Python code execution for numerical verification, ranks them using token-level entropy as a confidence signal, and aggregates answers through a multi-stage voting and self-verification pipeline. Empirical results show that MARS-GPS with 8 parallel rollouts achieves 88.8% on Geometry3K, a nearly +11% improvement over the prior state-of-the-art, with accuracy scaling consistently as the number of rollouts increases from 1 to 16 (+6.0% on ablation subset). We provide our code and data in an anonymous repository: https://anonymous.4open.science/r/MARS-GPS-DE55.