Online Episodic Convex Reinforcement Learning

📄 arXiv: 2505.07303v1 📥 PDF

作者: Bianca Marin Moreno, Khaled Eldowa, Pierre Gaillard, Margaux Brégère, Nadia Oudjane

分类: cs.LG, stat.ML

发布日期: 2025-05-12


💡 一句话要点

提出在线凸强化学习算法以解决CURL问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 凸强化学习 在线学习 马尔可夫决策过程 带子优化 探索奖励

📋 核心要点

  1. 核心问题:现有强化学习方法在处理凸损失时面临挑战,经典贝尔曼方程不再适用。
  2. 方法要点:提出了一种在线镜像下降算法,结合变化的约束集和探索奖励,解决CURL问题。
  3. 实验或效果:在没有过渡函数先验知识的情况下,实现了近似最优的遗憾界限,并在带子版本中取得亚线性遗憾界限。

📝 摘要(中文)

我们研究了在有限时间的马尔可夫决策过程(MDP)中进行在线学习的情形,特别是凸目标函数下的学习问题,即凹效用强化学习(CURL)问题。该设置将强化学习从线性损失推广到凸损失,非线性特性使得经典的贝尔曼方程失效,需采用新的算法方法。我们首次提出了一种算法,在没有过渡函数先验知识的情况下,实现了在线CURL的近似最优遗憾界限。为此,我们使用了具有变化约束集的在线镜像下降算法,并设计了精心的探索奖励。我们还首次处理了CURL的带子版本,仅依赖于代理策略所诱导的状态-动作分布上的目标函数值反馈。通过将带子凸优化技术适应于MDP设置,我们为这一更具挑战性的问题实现了亚线性遗憾界限。

🔬 方法详解

问题定义:论文旨在解决在有限时间的马尔可夫决策过程(MDP)中,凸目标函数下的在线学习问题。现有方法在处理非线性损失时,经典的贝尔曼方程失效,导致无法有效学习。

核心思路:论文提出了一种新的在线镜像下降算法,能够在没有过渡函数先验知识的情况下,针对CURL问题实现近似最优的遗憾界限。通过设计变化的约束集和探索奖励,增强了算法的探索能力。

技术框架:整体架构包括在线镜像下降算法的实现,分为初始化、策略更新、约束集调整和奖励设计几个主要模块。每个模块相互配合,确保算法在动态环境中有效学习。

关键创新:最重要的技术创新在于首次提出了针对CURL问题的在线学习算法,并在带子版本中实现了亚线性遗憾界限。这一创新突破了传统强化学习方法的局限性。

关键设计:算法中关键参数包括变化的约束集设计和探索奖励的计算方式,确保在学习过程中能够有效平衡探索与利用,优化学习效率。具体的损失函数和网络结构设计也经过精心调整,以适应凸损失的特性。

📊 实验亮点

实验结果表明,所提出的算法在没有过渡函数先验知识的情况下,成功实现了近似最优的遗憾界限,且在带子版本中取得了亚线性遗憾界限。这些结果相较于传统方法有显著提升,验证了算法的有效性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人控制和金融决策等需要实时决策的场景。通过有效处理凸损失问题,能够提升智能体在复杂环境中的学习效率和决策质量,具有重要的实际价值和未来影响。

📄 摘要(原文)

We study online learning in episodic finite-horizon Markov decision processes (MDPs) with convex objective functions, known as the concave utility reinforcement learning (CURL) problem. This setting generalizes RL from linear to convex losses on the state-action distribution induced by the agent's policy. The non-linearity of CURL invalidates classical Bellman equations and requires new algorithmic approaches. We introduce the first algorithm achieving near-optimal regret bounds for online CURL without any prior knowledge on the transition function. To achieve this, we use an online mirror descent algorithm with varying constraint sets and a carefully designed exploration bonus. We then address for the first time a bandit version of CURL, where the only feedback is the value of the objective function on the state-action distribution induced by the agent's policy. We achieve a sub-linear regret bound for this more challenging problem by adapting techniques from bandit convex optimization to the MDP setting.