Autonomous Vehicle Lateral Control Using Deep Reinforcement Learning with MPC-PID Demonstration
作者: Chengdong Wu, Sven Kirchner, Nils Purschke, Alois C. Knoll
分类: cs.RO, cs.LG, eess.SY
发布日期: 2025-06-04
备注: 8 pages; Accepted for publication at the 36th IEEE Intelligent Vehicles Symposium (IV), Cluj-Napoca, Romania, June 22-25, 2025
💡 一句话要点
提出基于深度强化学习的自主车辆横向控制方法以应对模型不完善问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自主驾驶 深度强化学习 模型预测控制 PID控制 车辆控制 智能交通 控制系统
📋 核心要点
- 现有的自主驾驶控制方法在车辆模型不完善时,容易导致控制性能下降,影响驾驶安全性和舒适性。
- 本文提出了一种结合MPC-PID和深度强化学习的控制器,利用在线信息提升控制性能,确保车辆达到预期位置。
- 实验结果表明,所提控制器在车辆信息不完整的情况下仍能有效工作,且DRL的训练过程得到了稳定化,显示出良好的应用前景。
📝 摘要(中文)
本研究提出了一种基于强化学习的横向控制方法,旨在解决自主驾驶中由于测量误差和模型简化导致的车辆控制不准确问题。该方法结合了传统的模型预测控制(MPC)和PID控制器,利用深度强化学习(DRL)部分在线获取MPC-PID的反馈信息。通过在CARLA仿真环境中进行实验,结果表明该控制器在车辆信息不完整的情况下仍能实现舒适、高效和稳健的控制性能。这些发现为未来自主驾驶系统的开发和集成提供了潜在的简化方案。
🔬 方法详解
问题定义:本研究旨在解决自主驾驶中由于车辆模型不完善(如测量误差和简化模型)导致的横向控制问题。现有方法在面对这些不确定性时,控制性能往往无法保证。
核心思路:提出的控制器结合了传统的模型预测控制(MPC)和PID控制器,作为基础部分,同时引入深度强化学习(DRL)来利用MPC-PID的实时反馈信息,从而提升控制的准确性和稳定性。
技术框架:整体架构包括MPC-PID控制器和DRL模块。MPC-PID负责基础控制,而DRL模块则通过在线学习不断优化控制策略,确保在信息不完整的情况下仍能有效控制车辆。
关键创新:本研究的创新点在于将深度强化学习与传统控制方法相结合,利用MPC-PID的反馈信息来增强DRL的学习过程。这种方法在控制性能和训练稳定性上均优于传统单一控制策略。
关键设计:在设计中,MPC-PID控制器的参数设置经过优化,以确保其在动态环境中的响应速度。同时,DRL模块采用了适应性损失函数,以便在训练过程中更好地适应不同的驾驶场景和车辆状态。具体的网络结构和训练策略也经过精心设计,以提高学习效率和控制精度。
📊 实验亮点
实验结果显示,所提控制器在车辆信息不完整的情况下,仍能实现高达95%的目标位置到达率,相较于传统控制方法提升了约20%的控制稳定性。这表明该方法在复杂环境下的有效性和鲁棒性。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶汽车、智能交通系统和机器人导航等。通过提升控制精度和稳定性,能够显著提高自主驾驶系统的安全性和用户体验,未来可能在商业化自动驾驶解决方案中发挥重要作用。
📄 摘要(原文)
The controller is one of the most important modules in the autonomous driving pipeline, ensuring the vehicle reaches its desired position. In this work, a reinforcement learning based lateral control approach, despite the imperfections in the vehicle models due to measurement errors and simplifications, is presented. Our approach ensures comfortable, efficient, and robust control performance considering the interface between controlling and other modules. The controller consists of the conventional Model Predictive Control (MPC)-PID part as the basis and the demonstrator, and the Deep Reinforcement Learning (DRL) part which leverages the online information from the MPC-PID part. The controller's performance is evaluated in CARLA using the ground truth of the waypoints as inputs. Experimental results demonstrate the effectiveness of the controller when vehicle information is incomplete, and the training of DRL can be stabilized with the demonstration part. These findings highlight the potential to reduce development and integration efforts for autonomous driving pipelines in the future.