Risk-Aware Reinforcement Learning with Bandit-Based Adaptation for Quadrupedal Locomotion
作者: Yuanhong Zeng, Anushri Dixit
分类: cs.RO
发布日期: 2025-10-16
💡 一句话要点
提出基于Bandit自适应的风险感知强化学习,提升四足机器人运动鲁棒性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 风险感知 四足机器人 运动控制 多臂老虎机
📋 核心要点
- 现有强化学习方法在四足机器人运动控制中,难以兼顾稳定性和适应未知环境。
- 提出基于CVaR约束的风险感知强化学习,训练一系列不同风险水平的策略,提升鲁棒性。
- 使用多臂老虎机在线自适应选择最优策略,无需环境信息,快速适应未知地形。
📝 摘要(中文)
本文研究了四足机器人运动中的风险感知强化学习。我们使用条件风险价值(CVaR)约束的策略优化技术训练了一系列风险条件策略,从而提高了稳定性和样本效率。在部署时,我们使用多臂老虎机框架自适应地从策略族中选择性能最佳的策略,该框架仅使用观察到的情节回报,无需任何特权环境信息,并能动态适应未知的条件。因此,我们使用CVaR训练了各种鲁棒性水平的四足运动策略,并自适应地在线选择所需的鲁棒性水平,以确保在未知环境中的性能。我们在模拟中跨越八个未见过的设置(通过改变动力学、接触、传感噪声和地形)以及在Unitree Go2机器人上在以前未见过的地形中评估了我们的方法。与其他基线相比,我们的风险感知策略在未见过的环境中获得了近两倍的平均和尾部性能,并且我们的基于bandit的自适应在运行两分钟内在未知地形中选择了性能最佳的风险感知策略。
🔬 方法详解
问题定义:现有的强化学习方法在四足机器人运动控制中,难以在保证稳定性的同时适应未知的复杂环境。尤其是在动力学特性变化、存在噪声干扰或地形崎岖的情况下,传统方法的性能会显著下降,甚至导致机器人摔倒或无法完成任务。因此,如何在未知环境中提升四足机器人的运动鲁棒性是一个关键问题。
核心思路:本文的核心思路是训练一系列具有不同风险偏好的运动策略,并在实际部署时,根据环境反馈自适应地选择最合适的策略。通过条件风险价值(CVaR)约束的策略优化,可以控制策略的风险水平,从而训练出既能保证平均性能,又能避免极端情况的策略。在线自适应选择则利用多臂老虎机算法,根据实际回报动态调整策略选择,无需预先了解环境信息。
技术框架:整体框架包含两个主要阶段:离线训练阶段和在线自适应阶段。在离线训练阶段,使用CVaR约束的策略优化算法,训练一系列具有不同风险偏好的策略。这些策略构成一个策略族,每个策略对应一个特定的风险水平。在在线自适应阶段,使用多臂老虎机算法,根据实际环境中的回报,动态选择策略族中的策略。多臂老虎机算法根据每个策略的历史回报,估计其期望回报,并选择期望回报最高的策略。
关键创新:最重要的技术创新点在于将风险感知强化学习与在线自适应选择相结合。传统的强化学习方法通常只训练一个策略,难以适应未知环境。而本文的方法通过训练一系列策略,并使用多臂老虎机算法进行在线选择,从而实现了在未知环境中的自适应运动控制。此外,使用CVaR约束的策略优化算法,可以有效地控制策略的风险水平,从而提高机器人的稳定性。
关键设计:CVaR约束的策略优化算法通过在策略优化过程中引入CVaR约束,限制策略的风险水平。CVaR是一种风险度量指标,表示在一定置信水平下,损失的期望值。通过调整CVaR的置信水平,可以控制策略的风险偏好。多臂老虎机算法使用UCB(Upper Confidence Bound)算法进行策略选择。UCB算法根据每个策略的历史回报,估计其期望回报,并选择期望回报加上一个置信上界的策略。置信上界反映了对策略回报估计的不确定性,鼓励算法探索未知的策略。
📊 实验亮点
在模拟环境中,该方法在八个未见过的设置中进行了评估,包括改变动力学、接触、传感噪声和地形。实验结果表明,与其他基线方法相比,该方法的风险感知策略在未见过的环境中获得了近两倍的平均和尾部性能。在Unitree Go2机器人上的实验表明,该方法的基于bandit的自适应能够在运行两分钟内在未知地形中选择性能最佳的风险感知策略。
🎯 应用场景
该研究成果可应用于各种复杂环境下的四足机器人运动控制,例如搜救、勘探、物流等领域。通过自适应选择策略,机器人能够在未知地形、存在干扰或动力学特性变化的情况下,保持稳定和高效的运动。此外,该方法还可以推广到其他类型的机器人和控制任务中,具有广泛的应用前景。
📄 摘要(原文)
In this work, we study risk-aware reinforcement learning for quadrupedal locomotion. Our approach trains a family of risk-conditioned policies using a Conditional Value-at-Risk (CVaR) constrained policy optimization technique that provides improved stability and sample efficiency. At deployment, we adaptively select the best performing policy from the family of policies using a multi-armed bandit framework that uses only observed episodic returns, without any privileged environment information, and adapts to unknown conditions on the fly. Hence, we train quadrupedal locomotion policies at various levels of robustness using CVaR and adaptively select the desired level of robustness online to ensure performance in unknown environments. We evaluate our method in simulation across eight unseen settings (by changing dynamics, contacts, sensing noise, and terrain) and on a Unitree Go2 robot in previously unseen terrains. Our risk-aware policy attains nearly twice the mean and tail performance in unseen environments compared to other baselines and our bandit-based adaptation selects the best-performing risk-aware policy in unknown terrain within two minutes of operation.