Towards Efficient Online Exploration for Reinforcement Learning with Human Feedback
作者: Gen Li, Yuling Yan
分类: stat.ML, cs.AI, cs.CL, cs.LG, math.ST
发布日期: 2025-09-26
💡 一句话要点
提出在线RLHF高效探索算法,解决奖励模型不确定性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人类反馈强化学习 在线学习 探索策略 奖励模型 多臂老虎机
📋 核心要点
- 现有基于乐观主义的RLHF探索算法,在减少奖励差异的不确定性方面效率较低,导致次优的探索策略。
- 提出一种新的探索方案,通过将偏好查询导向于减少与策略改进最相关的奖励差异的不确定性,来提升探索效率。
- 在多臂老虎机RLHF模型下,证明了所提算法的遗憾界为$T^{(β+1)/(β+2)}$,实现了多项式级别的遗憾缩放。
📝 摘要(中文)
本文研究了在线人类反馈强化学习(RLHF)的探索原则,旨在自适应地收集新的偏好数据,以数据高效的方式改进奖励模型和策略。通过分析现有的基于乐观主义的探索算法,我们发现它们在采样协议中存在缺陷:倾向于收集无法有效减少奖励差异中信息量最大的不确定性的比较数据。我们证明了这些方法可能导致在指数级长的时间范围内产生线性遗憾。基于此,我们提出了一种新的探索方案,将偏好查询导向于减少与策略改进最相关的奖励差异的不确定性。在RLHF的多臂老虎机模型下,我们建立了阶数为$T^{(β+1)/(β+2)}$的遗憾界,其中$β>0$是一个平衡奖励最大化和减轻分布偏移的超参数。据我们所知,这是第一个在线RLHF算法,其遗憾界以所有模型参数的多项式形式缩放。
🔬 方法详解
问题定义:论文旨在解决在线人类反馈强化学习(RLHF)中,如何高效探索以改进奖励模型和策略的问题。现有基于乐观主义的探索算法,例如UCB(Upper Confidence Bound)等,在RLHF场景下,倾向于收集对减少奖励差异不确定性贡献较小的数据,导致探索效率低下,最终影响策略的优化效果。这些方法可能导致在长时间范围内产生线性遗憾。
核心思路:论文的核心思路是,并非所有奖励差异的不确定性都对策略改进有同等价值。应该优先探索那些与策略改进最相关的奖励差异的不确定性。通过主动选择能够最大程度减少这些关键不确定性的偏好查询,可以更有效地改进奖励模型,从而提升策略性能。
技术框架:论文将RLHF问题建模为多臂老虎机问题。整体框架包含以下几个主要步骤:1)根据当前奖励模型的不确定性,选择一组候选的动作对(即老虎机臂);2)向人类请求对这些动作对的偏好反馈;3)利用人类反馈更新奖励模型;4)基于更新后的奖励模型,优化策略。关键在于如何选择动作对,即如何设计探索策略。
关键创新:论文的关键创新在于提出了一种新的探索策略,该策略并非盲目地追求减少所有奖励差异的不确定性,而是有选择性地关注那些对策略改进影响最大的不确定性。具体来说,该策略会评估每个候选动作对的偏好查询,对减少策略改进最相关的奖励差异不确定性的贡献,并选择贡献最大的动作对进行查询。
关键设计:论文设计了一个超参数$β>0$,用于平衡奖励最大化和减轻分布偏移。$β$越大,则越倾向于探索,以减少奖励模型的不确定性;$β$越小,则越倾向于利用当前奖励模型,以最大化奖励。此外,论文还推导出了遗憾界,并证明了所提算法的遗憾界以所有模型参数的多项式形式缩放。
📊 实验亮点
论文在多臂老虎机RLHF模型下,证明了所提出的探索算法的遗憾界为$T^{(β+1)/(β+2)}$,其中$β>0$是一个超参数。这是第一个在线RLHF算法,其遗憾界以所有模型参数的多项式形式缩放,表明了该算法在理论上的优越性。
🎯 应用场景
该研究成果可应用于各种需要人类反馈来优化策略的强化学习场景,例如大型语言模型的对齐、机器人技能学习、推荐系统等。通过更有效地利用人类反馈,可以降低训练成本,提升模型性能,并使模型更好地符合人类的偏好和价值观。
📄 摘要(原文)
Reinforcement learning with human feedback (RLHF), which learns a reward model from human preference data and then optimizes a policy to favor preferred responses, has emerged as a central paradigm for aligning large language models (LLMs) with human preferences. In this paper, we investigate exploration principles for online RLHF, where one seeks to adaptively collect new preference data to refine both the reward model and the policy in a data-efficient manner. By examining existing optimism-based exploration algorithms, we identify a drawback in their sampling protocol: they tend to gather comparisons that fail to reduce the most informative uncertainties in reward differences, and we prove lower bounds showing that such methods can incur linear regret over exponentially long horizons. Motivated by this insight, we propose a new exploration scheme that directs preference queries toward reducing uncertainty in reward differences most relevant to policy improvement. Under a multi-armed bandit model of RLHF, we establish regret bounds of order $T^{(β+1)/(β+2)}$, where $β>0$ is a hyperparameter that balances reward maximization against mitigating distribution shift. To our knowledge, this is the first online RLHF algorithm with regret scaling polynomially in all model parameters.