Expert Knowledge-driven Reinforcement Learning for Autonomous Racing via Trajectory Guidance and Dynamics Constraints
作者: Bo Leng, Weiqi Zhang, Zhuoren Li, Lu Xiong, Guizhe Jin, Ran Yu, Chen Lv
分类: cs.RO
发布日期: 2026-03-06
💡 一句话要点
提出TraD-RL,通过专家知识引导和动态约束强化学习解决自动驾驶赛车中的不稳定性和安全性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 自动驾驶赛车 专家知识 动态约束 课程学习
📋 核心要点
- 自动驾驶赛车环境具有高动态性和强非线性,导致传统强化学习训练不稳定且存在安全风险。
- TraD-RL方法利用专家轨迹引导和动态约束,稳定策略学习,保证驾驶安全,并采用课程学习超越专家水平。
- 在Tempelhof赛道仿真环境中,TraD-RL显著提升了自动驾驶赛车的圈速和稳定性,实现了性能与安全的协同优化。
📝 摘要(中文)
强化学习在自动驾驶领域展现出巨大潜力。然而,在具有高动态性和强非线性的自动驾驶赛车环境中,它面临着训练不稳定和不安全动作输出等问题。为此,本文提出了一种用于自动驾驶赛车的轨迹引导和动态约束强化学习(TraD-RL)方法。该方法的主要特点包括:1)利用先验专家赛车线构建增强的状态表示,并促进奖励塑造,从而整合领域知识以稳定早期策略学习;2)将显式车辆动态先验嵌入到通过控制屏障函数构建的安全操作范围内,以实现安全约束学习;3)采用多阶段课程学习策略,从专家引导学习转向自主探索,使学习到的策略能够超越专家水平。该方法在模拟Tempelhof机场街道赛道的高保真仿真环境中进行了评估。实验结果表明,TraD-RL有效地提高了自动驾驶赛车的单圈速度和驾驶稳定性,实现了赛车性能和安全性的协同优化。
🔬 方法详解
问题定义:自动驾驶赛车需要快速且安全地完成赛道。现有的强化学习方法在处理高动态和强非线性环境时,容易出现训练不稳定、探索效率低以及产生不安全动作等问题。这些问题阻碍了强化学习在自动驾驶赛车领域的实际应用。
核心思路:TraD-RL的核心思路是将专家知识融入强化学习过程中,通过专家轨迹引导和动态约束来改善学习过程。专家轨迹提供了一个良好的初始策略和状态空间探索方向,而动态约束则保证了学习过程中的安全性。通过课程学习,算法可以逐步从模仿专家策略过渡到自主探索,最终超越专家水平。
技术框架:TraD-RL包含三个主要模块:1) 增强状态表示和奖励塑造模块,利用专家赛车线构建增强的状态表示,并设计奖励函数,引导智能体学习;2) 安全约束模块,通过控制屏障函数(Control Barrier Functions, CBF)构建安全操作范围,约束智能体的动作输出,保证安全性;3) 多阶段课程学习模块,首先进行专家引导学习,然后逐步过渡到自主探索,最终实现超越专家水平的性能。
关键创新:TraD-RL的关键创新在于将专家知识和安全约束显式地融入到强化学习框架中。与传统的强化学习方法相比,TraD-RL能够更有效地利用先验知识,加速学习过程,并保证学习过程中的安全性。此外,多阶段课程学习策略使得智能体能够逐步从模仿专家策略过渡到自主探索,最终超越专家水平。
关键设计:在增强状态表示方面,论文使用了与专家轨迹的偏差作为状态的一部分。奖励函数的设计考虑了与专家轨迹的接近程度、速度以及安全性。控制屏障函数的设计基于车辆动力学模型,确保智能体的动作不会导致车辆超出安全操作范围。课程学习策略通过逐渐降低专家引导的权重,增加自主探索的比例来实现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TraD-RL在Tempelhof机场街道赛道仿真环境中,有效地提高了自动驾驶赛车的单圈速度和驾驶稳定性。与没有专家引导和动态约束的强化学习方法相比,TraD-RL能够更快地学习到安全且高效的驾驶策略,并最终超越专家水平。
🎯 应用场景
该研究成果可应用于自动驾驶赛车、无人驾驶车辆以及其他需要高动态控制和安全保障的机器人系统。通过结合专家知识和安全约束,可以提高智能体在复杂环境中的学习效率和安全性,具有重要的实际应用价值和广阔的未来发展前景。
📄 摘要(原文)
Reinforcement learning has demonstrated significant potential in the field of autonomous driving. However, it suffers from defects such as training instability and unsafe action outputs when faced with autonomous racing environments characterized by high dynamics and strong nonlinearities. To this end, this paper proposes a trajectory guidance and dynamics constraints Reinforcement Learning (TraD-RL) method for autonomous racing. The key features of this method are as follows: 1) leveraging the prior expert racing line to construct an augmented state representation and facilitate reward shaping, thereby integrating domain knowledge to stabilize early-stage policy learning; 2) embedding explicit vehicle dynamic priors into a safe operating envelope formulated via control barrier functions to enable safety-constrained learning; and 3) adopting a multi-stage curriculum learning strategy that shifts from expert-guided learning to autonomous exploration, allowing the learned policy to surpass expert-level performance. The proposed method is evaluated in a high-fidelity simulation environment modeled after the Tempelhof Airport Street Circuit. Experimental results demonstrate that TraD-RL effectively improves both lap speed and driving stability of the autonomous racing vehicle, achieving a synergistic optimization of racing performance and safety.