TreeAdv: Tree-Structured Advantage Redistribution for Group-Based RL

📄 arXiv: 2601.03703v1 📥 PDF

作者: Lang Cao, Hui Ruan, Yongqian Li, Peng Chao, Wu Ning, Haonan Song, Renhong Chen, Yitong Li

分类: cs.LG, cs.AI

发布日期: 2026-01-07


💡 一句话要点

TreeAdv:基于树结构优势重分配的组别强化学习方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 组别强化学习 优势重分配 树结构 数学推理

📋 核心要点

  1. 现有GRPO方法将rollout轨迹视为独立的扁平序列,并为所有token分配单一序列级别的优势,导致样本效率低下和对冗长CoT的长度偏差。
  2. TreeAdv通过熵驱动采样构建树结构的rollout,在高不确定性处分支,共享低不确定性token,并进行树结构的优势重分配。
  3. 实验表明,TreeAdv在数学推理任务上显著优于GRPO和GSPO,同时显著减少了token生成数量。

📝 摘要(中文)

本文提出TreeAdv(Tree-Structured Advantage Redistribution for Group-Based RL),用于解决组别强化学习中,如GRPO方法在对大型语言模型进行复杂推理任务对齐时存在的样本效率低和长度偏差问题。TreeAdv显式地利用组别rollout的树结构进行探索和优势分配。具体而言,TreeAdv基于熵驱动的采样方法构建一组树(森林),其中每棵树在不确定性高的决策点进行分支,并在rollout之间共享低不确定性的token。然后,TreeAdv通过重新分配完整rollout(所有叶节点)的优势,来聚合内部树段的token级别优势。TreeAdv可以轻松应用于GRPO或GSPO等基于组别的目标。在10个数学推理基准测试中,TreeAdv始终优于GRPO和GSPO,同时在相同的监督、数据和解码预算下,使用的生成token数量明显更少。

🔬 方法详解

问题定义:现有基于组别的强化学习方法,例如GRPO,在处理复杂推理任务时,将每个rollout轨迹视为一个独立的扁平序列,并为整个序列分配一个单一的优势值。这种做法忽略了轨迹内部token之间的差异,导致样本效率低下,并且容易产生冗长的、无助于提升逻辑深度的CoT(Chain of Thought)。

核心思路:TreeAdv的核心思路是利用组别rollout的内在树结构,对不同token进行差异化的优势分配。通过构建树结构,可以更精细地评估每个token对最终结果的贡献,从而提高样本效率和学习效果。该方法旨在解决现有方法中存在的长度偏差问题,鼓励模型生成更简洁、更有效的推理过程。

技术框架:TreeAdv的整体框架包括以下几个主要阶段:1) 树结构构建:基于熵驱动的采样方法,构建一组树(森林),每棵树代表一组相关的rollout。在高不确定性的决策点进行分支,而在低不确定性的token处共享。2) 优势重分配:将完整rollout(叶节点)的优势值,根据树结构重新分配给内部节点(token)。这样,每个token都获得一个与其贡献相对应的优势值。3) 策略优化:利用重新分配的优势值,对策略进行优化,鼓励模型生成更有效的推理路径。

关键创新:TreeAdv的关键创新在于将组别强化学习与树结构相结合,从而实现了更精细的优势分配。与现有方法相比,TreeAdv能够更好地利用rollout轨迹中的信息,提高样本效率,并减少对冗长CoT的依赖。通过显式地建模rollout的树结构,TreeAdv能够更准确地评估每个token的贡献,从而引导模型学习更有效的推理策略。

关键设计:TreeAdv的关键设计包括:1) 熵驱动采样:使用熵来衡量token的不确定性,并以此作为分支的依据。2) 优势聚合:设计了一种基于树结构的优势聚合方法,将叶节点的优势值重新分配给内部节点。3) 损失函数:TreeAdv可以兼容现有的组别强化学习目标,如GRPO和GSPO,并利用重新分配的优势值进行策略优化。具体参数设置和网络结构的选择取决于具体的应用场景和任务需求。

📊 实验亮点

实验结果表明,TreeAdv在10个数学推理基准测试中始终优于GRPO和GSPO。在相同的监督、数据和解码预算下,TreeAdv使用的生成token数量明显更少,这意味着TreeAdv具有更高的样本效率。例如,在某些任务上,TreeAdv可以将token生成数量减少20%以上,同时保持或提高性能。

🎯 应用场景

TreeAdv具有广泛的应用前景,尤其是在需要复杂推理和决策的任务中。例如,可以应用于大型语言模型的对齐,使其能够更好地完成数学推理、代码生成等任务。此外,TreeAdv还可以应用于机器人控制、游戏AI等领域,提高智能体的决策能力和学习效率。该研究有望推动强化学习在复杂任务中的应用,并为开发更智能的AI系统提供新的思路。

📄 摘要(原文)

Reinforcement learning with group-based objectives, such as Group Relative Policy Optimization (GRPO), is a common framework for aligning large language models on complex reasoning tasks. However, standard GRPO treats each rollout trajectory as an independent flat sequence and assigns a single sequence-level advantage to all tokens, which leads to sample inefficiency and a length bias toward verbose, redundant chains of thought without improving logical depth. We introduce TreeAdv (Tree-Structured Advantage Redistribution for Group-Based RL), which makes the tree structure of group rollouts explicit for both exploration and advantage assignment. Specifically, TreeAdv builds a group of trees (a forest) based on an entropy-driven sampling method where each tree branches at high-uncertainty decisions while sharing low-uncertainty tokens across rollouts. Then, TreeAdv aggregates token-level advantages for internal tree segments by redistributing the advantages of complete rollouts (all leaf nodes), and TreeAdv can easily apply to group-based objectives such as GRPO or GSPO. Across 10 math reasoning benchmarks, TreeAdv consistently outperforms GRPO and GSPO, while using substantially fewer generated tokens under identical supervision, data, and decoding budgets.