The Majority is not always right: RL training for solution aggregation

作者: Wenting Zhao, Pranjal Aggarwal, Swarnadeep Saha, Asli Celikyilmaz, Jason Weston, Ilia Kulikov

分类: cs.CL

发布日期: 2025-09-08

💡 一句话要点

提出AggLM，通过强化学习训练聚合器，提升LLM在推理任务中的表现。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 语言模型 答案聚合 推理任务 Transformer模型

📋 核心要点

现有LLM聚合方法（如多数投票）在复杂推理任务中表现受限，无法有效利用少数但正确的答案。
提出AggLM，利用强化学习训练聚合器模型，学习审查、协调和综合候选解，生成最终答案。
实验表明，AggLM优于传统方法，且能泛化到更强的模型，同时降低了计算成本。

📝 摘要（中文）

通过生成多个独立解并选择或聚合它们来扩大测试时计算规模，已成为改进大型语言模型（LLM）在具有挑战性的推理任务上的核心范例。然而，现有工作主要依赖于简单的多数投票或奖励模型排序来聚合解，这些方法可能只能产生有限的收益。本文提出将聚合作为一种显式的推理技能来学习：给定一组候选解，我们训练一个聚合器模型，使用来自可验证奖励的强化学习来审查、协调和综合最终的正确答案。一个关键要素是仔细平衡简单和困难的训练样本，使模型既能学习恢复少数但正确的答案，也能学习简单的多数正确答案。实验结果表明，我们的方法AggLM在多个基准测试中优于强大的基于规则的和奖励模型基线。此外，它可以有效地推广到来自不同模型的解，包括比训练数据中包含的更强的模型，同时需要的token数量远少于使用更多解的多数投票。

🔬 方法详解

问题定义：现有的大语言模型在解决复杂推理问题时，通常会生成多个候选答案，然后通过多数投票或者奖励模型排序等方式进行聚合。然而，这些简单的聚合方法无法充分利用所有候选答案的信息，特别是当少数答案是正确的时候，容易被多数错误答案淹没。因此，如何有效地聚合多个候选答案，从而提高大语言模型在复杂推理任务中的准确率，是一个亟待解决的问题。

核心思路：本文的核心思路是将答案聚合过程视为一个推理过程，并使用强化学习来训练一个聚合器模型。该模型能够学习如何审查、协调和综合多个候选答案，从而生成最终的正确答案。通过强化学习，模型可以学习到如何识别和利用少数但正确的答案，从而避免被多数错误答案所误导。

技术框架：AggLM的技术框架主要包含以下几个模块：1) 候选答案生成模块：使用大语言模型生成多个候选答案。2) 聚合器模型：使用一个Transformer模型作为聚合器，输入为所有候选答案，输出为最终的答案。3) 奖励函数：使用一个可验证的奖励函数来评估聚合器生成的答案的质量。4) 强化学习训练：使用强化学习算法（例如PPO）来训练聚合器模型，目标是最大化奖励函数。

关键创新：本文最重要的技术创新点在于使用强化学习来训练聚合器模型。与传统的聚合方法相比，强化学习可以使模型学习到更加复杂的聚合策略，从而更好地利用所有候选答案的信息。此外，本文还提出了一个平衡简单和困难训练样本的策略，从而提高了模型的泛化能力。

关键设计：在关键设计方面，本文采用了以下策略：1) 使用Transformer模型作为聚合器，因为Transformer模型具有强大的序列建模能力。2) 使用可验证的奖励函数，例如判断生成的答案是否与标准答案一致。3) 使用PPO算法进行强化学习训练，因为PPO算法具有较好的稳定性和收敛性。4) 平衡简单和困难的训练样本，例如增加少数但正确的答案的比例。

📊 实验亮点

AggLM在多个基准测试中均取得了显著的性能提升，超越了基于规则和奖励模型的基线方法。尤其值得一提的是，AggLM能够泛化到比训练数据更强的模型生成的解，并且在保证性能的同时，显著减少了所需的token数量，降低了计算成本。

🎯 应用场景

该研究成果可广泛应用于需要高精度推理的场景，例如问答系统、代码生成、数学问题求解等。通过学习有效的答案聚合策略，可以显著提升LLM在这些任务中的性能，并降低对模型规模和计算资源的需求，具有重要的实际应用价值和潜在的商业前景。

📄 摘要（原文）

Scaling up test-time compute, by generating multiple independent solutions and selecting or aggregating among them, has become a central paradigm for improving large language models (LLMs) on challenging reasoning tasks. While most prior work relies on simple majority voting or reward model ranking to aggregate solutions, these approaches may only yield limited benefits. In this work, we propose to learn aggregation as an explicit reasoning skill: given a set of candidate solutions, we train an aggregator model to review, reconcile, and synthesize a final, correct answer using reinforcement learning from verifiable rewards. A key ingredient is careful balancing of easy and hard training examples, allowing the model to learn both to recover minority-but-correct answers as well as easy majority-correct answers. Empirically, we find our method, AggLM, outperforms both strong rule-based and reward-model baselines, across multiple benchmarks. Furthermore, it generalizes effectively to solutions from differing models, including stronger ones than contained in the training data, all while requiring substantially fewer tokens than majority voting with larger numbers of solutions.

The Majority is not always right: RL training for solution aggregation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册