Partial End-to-end Reinforcement Learning for Robustness Against Modelling Error in Autonomous Racing
作者: Andrew Murdoch, Johannes Cornelius Schoeman, Hendrik Willem Jordaan
分类: cs.RO, cs.AI
发布日期: 2023-12-11 (更新: 2024-08-05)
备注: Submitted to IEEE Transactions on Intelligent Transport Systems
💡 一句话要点
提出一种部分端到端强化学习算法,增强自动驾驶赛车在模型失配下的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 自动驾驶 模型失配 鲁棒性 轨迹规划 轨迹跟踪 经典控制 部分端到端
📋 核心要点
- 现有端到端强化学习自动驾驶算法在模型失配时鲁棒性较差,难以适应实际车辆的建模误差。
- 论文提出部分端到端算法,解耦规划和控制任务,利用经典控制器的鲁棒性来提升整体性能。
- 实验结果表明,该算法在模型失配情况下比标准端到端算法表现出更好的鲁棒性。
📝 摘要(中文)
本文旨在解决自动驾驶赛车在存在车辆建模误差(通常称为“模型失配”)的情况下,强化学习(RL)解决方案性能下降的问题。为此,我们提出了一种部分端到端算法,将规划和控制任务解耦。在该框架内,RL智能体生成包含路径和速度的轨迹,然后分别使用纯追踪转向控制器和比例速度控制器进行跟踪。相比之下,许多当前基于学习的算法(即强化学习和模仿学习)采用端到端方法,其中深度神经网络直接从传感器数据映射到控制命令。通过利用经典控制器的鲁棒性,我们的部分端到端驾驶算法比标准端到端算法在模型失配方面表现出更好的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决自动驾驶赛车中,由于车辆模型与真实车辆存在差异(模型失配)而导致的强化学习算法性能下降问题。现有端到端强化学习方法直接将传感器数据映射到控制指令,对模型误差非常敏感,难以保证在实际环境中的鲁棒性。
核心思路:论文的核心思路是将自动驾驶任务分解为轨迹规划和轨迹跟踪两个子任务。轨迹规划由强化学习智能体负责,生成包含路径和速度信息的轨迹;轨迹跟踪则由经典的控制算法(纯追踪转向控制器和比例速度控制器)负责。这种解耦的设计可以利用经典控制器的鲁棒性,从而提高整体系统的抗干扰能力。
技术框架:整体框架包含两个主要模块:1) 轨迹规划模块:使用强化学习算法训练智能体,使其能够根据当前车辆状态和赛道信息生成一条期望的轨迹(路径和速度)。2) 轨迹跟踪模块:使用纯追踪转向控制器跟踪期望路径,使用比例速度控制器跟踪期望速度。这两个模块协同工作,实现车辆的自动驾驶。
关键创新:论文的关键创新在于提出了部分端到端的设计思想,将强化学习和经典控制相结合。与完全依赖深度神经网络的端到端方法不同,该方法利用经典控制器的鲁棒性来弥补强化学习智能体在模型失配情况下的不足。这种混合方法在保证性能的同时,提高了系统的可靠性。
关键设计:轨迹规划模块的具体强化学习算法未知,但其输出是轨迹的路径和速度信息。轨迹跟踪模块使用了经典的纯追踪转向控制器和比例速度控制器,这些控制器的参数需要根据具体车辆和赛道进行调整。损失函数的设计也至关重要,需要平衡轨迹的平滑性、速度和安全性。
📊 实验亮点
论文的主要亮点在于验证了部分端到端算法在模型失配情况下的鲁棒性优于标准端到端算法。虽然论文摘要中没有给出具体的性能数据和对比基线,但强调了该算法在应对实际车辆建模误差方面的优势。未来的研究可以进一步量化这种优势,并与其他先进的强化学习算法进行比较。
🎯 应用场景
该研究成果可应用于各种自动驾驶场景,尤其是在车辆模型难以精确建立或存在较大不确定性的情况下。例如,在越野车辆、无人配送车等领域,该方法可以提高自动驾驶系统的鲁棒性和可靠性,降低因模型误差导致的事故风险。此外,该方法还可以推广到其他机器人控制领域,例如无人机、水下机器人等。
📄 摘要(原文)
In this paper, we address the issue of increasing the performance of reinforcement learning (RL) solutions for autonomous racing cars when navigating under conditions where practical vehicle modelling errors (commonly known as \emph{model mismatches}) are present. To address this challenge, we propose a partial end-to-end algorithm that decouples the planning and control tasks. Within this framework, an RL agent generates a trajectory comprising a path and velocity, which is subsequently tracked using a pure pursuit steering controller and a proportional velocity controller, respectively. In contrast, many current learning-based (i.e., reinforcement and imitation learning) algorithms utilise an end-to-end approach whereby a deep neural network directly maps from sensor data to control commands. By leveraging the robustness of a classical controller, our partial end-to-end driving algorithm exhibits better robustness towards model mismatches than standard end-to-end algorithms.