Reinforced Efficient Reasoning via Semantically Diverse Exploration

📄 arXiv: 2601.05053v1 📥 PDF

作者: Ziqi Zhao, Zhaochun Ren, Jiahong Zou, Liu Yang, Zhiwei Xu, Xuri Ge, Zhumin Chen, Xinyu Ma, Daiting Shi, Shuaiqiang Wang, Dawei Yin, Xin Xin

分类: cs.AI, cs.CL

发布日期: 2026-01-08

🔗 代码/项目: GITHUB


💡 一句话要点

ROSE:通过语义多样性探索增强LLM的强化高效推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理 蒙特卡洛树搜索 语义多样性

📋 核心要点

  1. 现有基于MCTS的RLVR方法在探索多样性和推理效率方面存在局限性,导致模型难以发现最优推理路径。
  2. ROSE通过语义熵分支策略和ε-探索机制,鼓励模型探索更多样化的推理路径,避免陷入局部最优。
  3. ROSE设计了长度感知的段级优势估计器,提高奖励信号的精度,从而提升推理效率和准确性。

📝 摘要(中文)

本文提出了一种名为ROSE(reinforced efficient reasoning via semantically diverse explorations)的方法,用于增强大型语言模型(LLMs)的推理能力。该方法基于带有可验证奖励的强化学习(RLVR),并改进了基于蒙特卡洛树搜索(MCTS)的扩展方法,例如GRPO。ROSE通过引入基于语义熵的分支策略和ε-探索机制来鼓励更多样化的推理探索。前者作用于已采样的推理过程,捕获语义不确定性,并选择具有高语义差异的分支点来生成新的推理路径;后者随机地从根节点启动推理过程,防止搜索过程过于局部。为了提高效率,ROSE设计了一种长度感知的段级优势估计器,奖励简洁且正确的推理,同时惩罚不必要的长推理链。在Qwen和Llama模型上进行的各种数学推理基准测试表明,ROSE的有效性和效率。

🔬 方法详解

问题定义:现有基于蒙特卡洛树搜索(MCTS)的强化学习方法,在增强大型语言模型(LLMs)的推理能力时,存在探索多样性不足和推理效率低下的问题。具体来说,模型容易陷入局部最优,难以发现更优的推理路径,并且冗长的推理过程会降低效率。

核心思路:ROSE的核心思路是通过引入语义多样性来增强探索,并利用长度感知的奖励机制来提高效率。通过语义熵来评估推理路径的多样性,并选择具有高语义差异的分支点进行探索,从而避免陷入局部最优。同时,通过奖励简洁且正确的推理,惩罚冗长的推理,提高学习效率。

技术框架:ROSE的整体框架基于蒙特卡洛树搜索(MCTS)。主要包含以下几个阶段:1) 推理路径采样:从根节点开始,通过语言模型生成推理路径。2) 语义熵计算:计算已采样推理路径的语义熵,评估其多样性。3) 分支点选择:基于语义熵选择具有高语义差异的分支点。4) 路径扩展:从选定的分支点继续生成新的推理路径。5) 奖励计算:使用长度感知的段级优势估计器计算奖励。6) 策略更新:根据奖励更新策略。

关键创新:ROSE的关键创新在于引入了基于语义熵的分支策略和长度感知的段级优势估计器。基于语义熵的分支策略能够有效地评估推理路径的多样性,并选择具有高语义差异的分支点进行探索,从而避免陷入局部最优。长度感知的段级优势估计器能够更准确地评估推理过程的质量,从而提高学习效率。

关键设计:语义熵的计算方式是关键设计之一,论文中可能使用了预训练语言模型来提取推理路径的语义表示,然后计算这些表示的熵。ε-探索机制中的ε值需要仔细调整,以平衡探索和利用。长度感知的段级优势估计器可能使用了某种形式的正则化,以惩罚过长的推理链。具体的损失函数和网络结构细节需要在论文中查找。

📊 实验亮点

ROSE在多个数学推理基准测试中取得了显著的性能提升。具体而言,在Qwen和Llama模型上,ROSE相较于现有方法,在推理准确率和效率方面均有提升。论文中提供的具体性能数据和对比基线可以进一步验证ROSE的有效性。

🎯 应用场景

ROSE方法可以应用于各种需要复杂推理的场景,例如数学问题求解、代码生成、知识图谱推理等。该方法能够提高LLM在这些任务上的准确性和效率,具有广泛的应用前景。未来,该方法可以进一步扩展到其他类型的推理任务,并与其他技术相结合,以实现更强大的推理能力。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has proven effective in enhancing the reasoning of large language models (LLMs). Monte Carlo Tree Search (MCTS)-based extensions improve upon vanilla RLVR (e.g., GRPO) by providing tree-based reasoning rollouts that enable fine-grained and segment-level credit assignment. However, existing methods still suffer from limited exploration diversity and inefficient reasoning. To address the above challenges, we propose reinforced efficient reasoning via semantically diverse explorations, i.e., ROSE, for LLMs. To encourage more diverse reasoning exploration, our method incorporates a semantic-entropy-based branching strategy and an $\varepsilon$-exploration mechanism. The former operates on already sampled reasoning rollouts to capture semantic uncertainty and select branching points with high semantic divergence to generate new successive reasoning paths, whereas the latter stochastically initiates reasoning rollouts from the root, preventing the search process from becoming overly local. To improve efficiency, we design a length-aware segment-level advantage estimator that rewards concise and correct reasoning while penalizing unnecessarily long reasoning chains. Extensive experiments on various mathematical reasoning benchmarks with Qwen and Llama models validate the effectiveness and efficiency of ROSE. Codes are available at https://github.com/ZiqiZhao1/ROSE-rl.