MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator

📄 arXiv: 2312.03991v2 📥 PDF

作者: Xiao-Yin Liu, Xiao-Hu Zhou, Guotao Li, Hao Li, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang, Zeng-Guang Hou

分类: cs.LG, cs.AI

发布日期: 2023-12-07 (更新: 2024-04-17)

备注: Accepted by IJCAI 2024 (the 33rd International Joint Conference on Artificial Intelligence)


💡 一句话要点

提出基于保守贝尔曼算子的模型离线强化学习算法MICRO,提升策略鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 模型强化学习 保守策略优化 鲁棒性 贝尔曼算子

📋 核心要点

  1. 离线强化学习中,现有方法难以平衡探索OOD区域和避免分布偏移带来的风险。
  2. MICRO算法通过引入鲁棒贝尔曼算子,在模型预测的不确定性集合中保守地选择最小Q值,提升策略鲁棒性。
  3. 实验表明,MICRO在离线RL基准测试中表现优于现有算法,并对对抗扰动具有更强的抵抗能力。

📝 摘要(中文)

离线强化学习(RL)面临着显著的分布偏移挑战。无模型的离线RL通过惩罚分布外(OOD)数据的Q值或约束策略接近行为策略来解决这个问题,但这抑制了对OOD区域的探索。基于模型的离线RL通过使用训练好的环境模型生成更多的OOD数据,并在该模型内执行保守的策略优化,已经成为解决该问题的有效方法。然而,当前基于模型的算法在将保守性纳入策略时很少考虑智能体的鲁棒性。因此,提出了一种新的基于模型的离线算法,该算法具有保守的贝尔曼算子(MICRO)。该方法通过将鲁棒贝尔曼算子引入算法来权衡性能和鲁棒性。与之前具有鲁棒对抗模型的基于模型的算法相比,MICRO可以通过仅选择状态不确定性集合中的最小Q值来显著降低计算成本。大量的实验表明,MICRO在离线RL基准测试中优于之前的RL算法,并且对对抗扰动具有相当的鲁棒性。

🔬 方法详解

问题定义:离线强化学习旨在利用静态数据集训练策略,避免与环境的直接交互。然而,由于数据集中缺乏对某些状态-动作对的覆盖,导致策略在这些分布外(OOD)区域表现不佳。现有方法,如惩罚OOD数据的Q值或约束策略接近行为策略,虽然能缓解分布偏移问题,但限制了对潜在更优策略的探索。此外,现有基于模型的离线强化学习算法在优化策略时,往往忽略了智能体对环境模型不确定性的鲁棒性。

核心思路:MICRO算法的核心在于引入一个保守的贝尔曼算子,该算子在更新Q值时,考虑到模型预测的不确定性。具体来说,对于每个状态,算法会考虑一个状态不确定性集合,并选择该集合中最小的Q值作为更新目标。这种保守策略能够有效地降低因模型误差带来的风险,提升策略的鲁棒性。

技术框架:MICRO算法主要包含以下几个阶段:1) 使用离线数据集训练环境模型;2) 基于训练好的环境模型,生成新的状态样本;3) 对于每个状态,构建一个状态不确定性集合;4) 使用保守贝尔曼算子更新Q值,该算子选择状态不确定性集合中的最小Q值;5) 基于更新后的Q值,优化策略。

关键创新:MICRO算法的关键创新在于引入了保守贝尔曼算子,该算子能够有效地提升策略的鲁棒性。与现有方法相比,MICRO算法不需要训练鲁棒对抗模型,从而显著降低了计算成本。此外,MICRO算法通过直接在贝尔曼更新中引入保守性,能够更有效地避免因模型误差带来的风险。

关键设计:MICRO算法的关键设计包括:1) 状态不确定性集合的构建方式,例如可以使用对抗扰动生成;2) 保守贝尔曼算子的具体形式,例如可以选择状态不确定性集合中的最小Q值,或者使用其他保守性度量;3) Q值网络的结构和训练方式,例如可以使用深度神经网络进行函数逼近,并使用离线数据集进行训练。

📊 实验亮点

实验结果表明,MICRO算法在多个离线RL基准测试中优于现有算法。例如,在D4RL数据集上,MICRO算法在多个任务中取得了显著的性能提升。此外,实验还表明,MICRO算法对对抗扰动具有很强的抵抗能力,即使在环境模型受到攻击的情况下,也能保持较好的性能。

🎯 应用场景

MICRO算法可应用于各种需要离线决策的场景,例如自动驾驶、医疗诊断、金融交易等。在这些场景中,由于数据获取成本高昂或存在安全风险,无法进行在线探索,因此离线强化学习具有重要意义。MICRO算法的鲁棒性使其在环境模型不确定性较高的情况下也能做出可靠的决策,具有很高的应用价值。

📄 摘要(原文)

Offline reinforcement learning (RL) faces a significant challenge of distribution shift. Model-free offline RL penalizes the Q value for out-of-distribution (OOD) data or constrains the policy closed to the behavior policy to tackle this problem, but this inhibits the exploration of the OOD region. Model-based offline RL, which uses the trained environment model to generate more OOD data and performs conservative policy optimization within that model, has become an effective method for this problem. However, the current model-based algorithms rarely consider agent robustness when incorporating conservatism into policy. Therefore, the new model-based offline algorithm with a conservative Bellman operator (MICRO) is proposed. This method trades off performance and robustness via introducing the robust Bellman operator into the algorithm. Compared with previous model-based algorithms with robust adversarial models, MICRO can significantly reduce the computation cost by only choosing the minimal Q value in the state uncertainty set. Extensive experiments demonstrate that MICRO outperforms prior RL algorithms in offline RL benchmark and is considerably robust to adversarial perturbations.