Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward
作者: Jianlong Chen, Daocheng Fu, Shengze Xu, Jiawei Chen, Yuan Feng, Yue Yang, Junchi Yan, Hongyuan Zha, Renqiu Xia
分类: cs.LG
发布日期: 2026-01-08
💡 一句话要点
提出SGVR框架,通过子目标可验证奖励提升MLLM几何推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 几何推理 子目标奖励 形式验证 知识推理
📋 核心要点
- MLLM在几何推理中面临挑战,现有基于结果的监督难以区分正确推理和侥幸成功。
- 提出SGVR框架,利用可验证的子目标奖励,为模型提供更密集的学习信号。
- 实验表明,SGVR显著提升了几何推理性能,并泛化到其他数学和推理任务。
📝 摘要(中文)
多模态大型语言模型(MLLM)在复杂的几何推理方面表现不佳,这主要是因为基于结果的“黑盒”监督无法区分偶然的猜测和严谨的推导。为了解决这个问题,本文提出了一种范式转变,即转向子目标级别的评估和学习。首先,构建了GeoGoal基准,该基准通过严格的形式验证数据引擎合成,将抽象证明转换为可验证的数值子目标。这种结构揭示了推理质量和结果准确性之间的关键差异。在此基础上,提出了子目标可验证奖励(SGVR)框架,该框架用基于骨架率的密集奖励取代了稀疏信号。实验表明,SGVR不仅提高了几何性能(+9.7%),而且表现出很强的泛化能力,将收益转移到一般数学(+8.0%)和其他一般推理任务(+2.8%),证明了其在不同领域的广泛适用性。
🔬 方法详解
问题定义:MLLM在几何问题求解中,仅仅依靠最终结果进行监督,无法有效区分模型是通过正确的推理步骤得到答案,还是仅仅通过一些“蒙”的方法碰巧得到正确答案。这种“黑盒”式的监督方式导致模型难以真正学习到几何推理的逻辑和方法,泛化能力较差。现有方法缺乏对中间推理步骤的有效监督和奖励机制。
核心思路:论文的核心思路是将复杂的几何证明过程分解为一系列可验证的子目标。通过对每个子目标的完成情况进行评估,并给予相应的奖励,从而为模型提供更细粒度、更密集的学习信号。这种方法可以鼓励模型学习正确的推理路径,提高其几何推理能力和泛化能力。
技术框架:SGVR框架主要包含以下几个阶段:1) GeoGoal基准构建:利用形式验证数据引擎,将几何证明过程转化为一系列可验证的数值子目标,构建数据集。2) 子目标验证:在模型进行推理的过程中,对每个子目标的完成情况进行验证,判断其是否达到预定的数值标准。3) 奖励生成:根据子目标的验证结果,生成相应的奖励信号。如果子目标完成,则给予正向奖励;否则,给予负向奖励或不给予奖励。奖励的大小可以根据子目标的重要程度进行调整。4) 模型训练:利用生成的奖励信号,训练MLLM模型,使其能够更好地完成几何推理任务。
关键创新:最重要的技术创新点在于提出了子目标可验证奖励(SGVR)机制。与传统的基于结果的稀疏奖励相比,SGVR能够提供更密集、更细粒度的学习信号,从而更好地指导模型的学习过程。此外,GeoGoal基准的构建也为几何推理任务的研究提供了新的数据资源。与现有方法的本质区别在于,SGVR关注的是推理过程的正确性,而不仅仅是最终结果的正确性。
关键设计:在SGVR框架中,一个关键的设计是骨架率(Skeleton Rate)的计算。骨架率用于衡量模型完成子目标的程度,并根据骨架率生成相应的奖励信号。具体的计算方法未知,但可以推测是根据模型输出与预设子目标之间的差距来计算的。此外,奖励信号的大小也需要根据子目标的重要程度进行调整,以更好地引导模型的学习过程。损失函数的设计也需要考虑到奖励信号的影响,以最大化模型的学习效果。
📊 实验亮点
实验结果表明,SGVR框架在几何推理任务上取得了显著的性能提升,达到了+9.7%。更重要的是,SGVR展现出了强大的泛化能力,能够将收益转移到一般数学任务(+8.0%)和其他一般推理任务(+2.8%)。这些结果表明,SGVR不仅能够提高模型的几何推理能力,还能够提升其整体的推理能力。
🎯 应用场景
该研究成果可应用于智能教育、机器人导航、自动驾驶等领域。在智能教育中,可以帮助学生更好地理解几何概念和推理方法。在机器人导航和自动驾驶中,可以提高机器人对环境的感知和理解能力,使其能够更好地完成复杂的任务。此外,该方法还可以推广到其他需要逻辑推理的领域,如程序验证、知识图谱推理等。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) struggle with complex geometric reasoning, largely because "black box" outcome-based supervision fails to distinguish between lucky guesses and rigorous deduction. To address this, we introduce a paradigm shift towards subgoal-level evaluation and learning. We first construct GeoGoal, a benchmark synthesized via a rigorous formal verification data engine, which converts abstract proofs into verifiable numeric subgoals. This structure reveals a critical divergence between reasoning quality and outcome accuracy. Leveraging this, we propose the Sub-Goal Verifiable Reward (SGVR) framework, which replaces sparse signals with dense rewards based on the Skeleton Rate. Experiments demonstrate that SGVR not only enhances geometric performance (+9.7%) but also exhibits strong generalization, transferring gains to general math (+8.0%) and other general reasoning tasks (+2.8%), demonstrating broad applicability across diverse domains.