Learning Structured Reasoning via Tractable Trajectory Control
作者: Po-Nien Kung, Zhen Yang, Jeffrey Luo, Cheng-Fu Yang, Haikang Deng, Zi-Yi Dou, Yinfei Yang, Nanyun Peng, Zhe Gan, Kai-Wei Chang
分类: cs.AI
发布日期: 2026-03-02
💡 一句话要点
提出Ctrl-R框架,通过可控轨迹学习结构化推理,提升语言和视觉语言模型在数学推理任务上的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 结构化推理 强化学习 轨迹控制 语言模型 视觉语言模型 数学推理 重要性采样 策略优化
📋 核心要点
- 现有方法难以保证语言模型获得多样化的推理行为,尤其是在复杂推理轨迹稀疏的情况下。
- Ctrl-R通过主动引导rollout过程,激励探索多样化的推理模式,从而学习结构化推理。
- 实验表明,Ctrl-R能够有效提升语言和视觉语言模型在数学推理任务上的性能。
📝 摘要(中文)
大型语言模型展现出涌现的推理能力,通常表现为重复出现的词汇模式(例如,“等待”,表示验证)。然而,复杂的推理轨迹在无约束采样中仍然稀疏,并且标准强化学习通常无法保证获得多样化的推理行为。我们提出了一种通过结构化推理系统地发现和强化多样化推理模式的方法,这种范式需要在强化学习过程中有针对性地探索特定的推理模式。为此,我们提出了Ctrl-R,一个通过可控轨迹学习结构化推理的框架,该框架主动引导 rollout 过程,激励探索对于复杂问题解决至关重要的多样化推理模式。由此产生的行为策略能够实现准确的重要性采样估计,支持无偏的 on-policy 优化。我们进一步在重要性采样权重上引入了幂缩放因子,允许策略选择性地从探索性的、分布外的轨迹中学习,同时保持稳定的优化。实验表明,Ctrl-R 能够有效地探索和内化以前无法获得的推理模式,从而在数学推理任务中对语言和视觉语言模型产生一致的改进。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂推理任务中,由于推理轨迹稀疏和缺乏多样性,导致标准强化学习方法难以有效学习的问题。现有方法难以保证模型探索到足够多的、有价值的推理路径,从而限制了模型的推理能力。
核心思路:论文的核心思路是通过结构化推理,有针对性地探索特定的推理模式,并利用强化学习来学习这些模式。通过主动引导 rollout 过程,激励模型探索多样化的推理模式,从而克服推理轨迹稀疏的问题。
技术框架:Ctrl-R框架包含以下主要模块:1) 轨迹控制模块,用于主动引导 rollout 过程,鼓励探索多样化的推理模式;2) 行为策略模块,用于生成推理轨迹;3) 重要性采样模块,用于估计不同轨迹的价值,并进行无偏的 on-policy 优化;4) 幂缩放模块,用于选择性地从探索性的、分布外的轨迹中学习,同时保持优化稳定性。整体流程是,首先通过轨迹控制模块引导行为策略生成推理轨迹,然后利用重要性采样模块估计轨迹价值,并通过强化学习算法优化行为策略。
关键创新:论文的关键创新在于提出了可控轨迹学习的结构化推理框架Ctrl-R,该框架能够主动引导模型探索多样化的推理模式,从而克服了传统强化学习方法在推理轨迹稀疏情况下的局限性。此外,论文还提出了幂缩放的重要性采样权重,允许策略选择性地从探索性的轨迹中学习,同时保持优化稳定性。
关键设计:轨迹控制模块的设计需要根据具体的推理任务进行调整,例如,可以设计特定的奖励函数来鼓励模型探索特定的推理步骤。重要性采样权重的幂缩放因子是一个超参数,需要根据实验结果进行调整,以平衡探索和利用之间的关系。行为策略可以使用各种不同的神经网络结构,例如,Transformer 模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Ctrl-R框架能够有效地探索和内化以前无法获得的推理模式,从而在数学推理任务中对语言和视觉语言模型产生一致的改进。具体性能数据未知,但摘要强调了“consistent improvements”,表明该方法具有普适性和有效性。
🎯 应用场景
该研究成果可应用于各种需要复杂推理能力的场景,例如数学问题求解、逻辑推理、知识图谱推理、智能对话系统等。通过学习结构化的推理模式,可以提升模型在这些场景下的性能和可靠性,从而实现更智能化的应用。
📄 摘要(原文)
Large language models can exhibit emergent reasoning behaviors, often manifested as recurring lexical patterns (e.g., "wait," indicating verification). However, complex reasoning trajectories remain sparse in unconstrained sampling, and standard RL often fails to guarantee the acquisition of diverse reasoning behaviors. We propose a systematic discovery and reinforcement of diverse reasoning patterns through structured reasoning, a paradigm that requires targeted exploration of specific reasoning patterns during the RL process. To this end, we propose Ctrl-R, a framework for learning structured reasoning via tractable trajectory control that actively guides the rollout process, incentivizing the exploration of diverse reasoning patterns that are critical for complex problem-solving. The resulting behavior policy enables accurate importance-sampling estimation, supporting unbiased on-policy optimization. We further introduce a power-scaling factor on the importance-sampling weights, allowing the policy to selectively learn from exploratory, out-of-distribution trajectories while maintaining stable optimization. Experiments demonstrate that Ctrl-R enables effective exploration and internalization of previously unattainable reasoning patterns, yielding consistent improvements across language and vision-language models on mathematical reasoning tasks.