TreeIRL: Safe Urban Driving with Tree Search and Inverse Reinforcement Learning

📄 arXiv: 2509.13579v4 📥 PDF

作者: Momchil S. Tomov, Sang Uk Lee, Hansford Hendrago, Jinwook Huh, Teawon Han, Forbes Howington, Rafael da Silva, Gianmarco Bernasconi, Marc Heim, Samuel Findler, Xiaonan Ji, Alexander Boule, Michael Napoli, Kuo Chen, Jesse Miller, Boaz Floor, Yunqing Hu

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-09-16 (更新: 2025-10-25)


💡 一句话要点

TreeIRL:结合蒙特卡洛树搜索与逆强化学习的安全城市自动驾驶规划器

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 蒙特卡洛树搜索 逆强化学习 轨迹规划 城市环境

📋 核心要点

  1. 现有自动驾驶规划方法难以兼顾安全性、类人行为和计算效率,尤其是在复杂城市环境中。
  2. TreeIRL结合MCTS探索安全轨迹,并用深度IRL学习人类驾驶偏好,从而选择更安全、更自然的轨迹。
  3. 在仿真和真实道路测试中,TreeIRL在安全性、进度、舒适性和类人行为方面均优于现有规划器。

📝 摘要(中文)

本文提出了一种名为TreeIRL的自动驾驶规划器,它结合了蒙特卡洛树搜索(MCTS)和逆强化学习(IRL),在仿真和真实驾驶中均实现了最先进的性能。核心思想是利用MCTS找到一组有希望的安全候选轨迹,并使用深度IRL评分函数从中选择最像人类驾驶行为的轨迹。我们在大规模仿真以及拉斯维加斯都市区超过500英里的真实自动驾驶中,针对经典和最先进的规划器对TreeIRL进行了评估。测试场景包括密集的城市交通、自适应巡航控制、切入和交通信号灯。TreeIRL实现了最佳的整体性能,在安全性、进度、舒适性和类人行为之间取得了平衡。据我们所知,我们的工作是首次在公共道路上演示基于MCTS的规划,并强调了在各种指标和真实环境中评估规划器的重要性。TreeIRL具有高度的可扩展性,可以通过强化学习和模仿学习进一步改进,为探索经典方法和基于学习的方法的不同组合以解决自动驾驶中的规划瓶颈提供了一个框架。

🔬 方法详解

问题定义:自动驾驶规划需要在复杂动态的城市环境中生成安全、高效且类人的驾驶轨迹。现有方法,如基于规则的规划器,难以应对复杂场景,而基于学习的规划器可能缺乏安全保证。痛点在于如何在保证安全性的前提下,生成更自然、更符合人类驾驶习惯的轨迹。

核心思路:TreeIRL的核心思路是将蒙特卡洛树搜索(MCTS)用于探索潜在的安全轨迹,并利用逆强化学习(IRL)学习人类驾驶员的偏好,从而选择既安全又类人的轨迹。MCTS负责生成和评估大量候选轨迹,IRL则负责对这些轨迹进行排序,选择最符合人类驾驶行为的轨迹。

技术框架:TreeIRL的整体框架包含以下几个主要模块:1) 环境模型:用于模拟车辆的运动和环境的动态变化。2) MCTS轨迹生成:使用MCTS算法生成一系列候选轨迹,MCTS通过模拟车辆在不同动作下的行为,并根据奖励函数评估轨迹的优劣。3) IRL奖励函数:使用深度神经网络学习人类驾驶员的奖励函数,该函数能够评估轨迹的类人程度。4) 轨迹选择:根据IRL奖励函数对MCTS生成的轨迹进行排序,选择得分最高的轨迹作为最终的驾驶轨迹。

关键创新:TreeIRL的关键创新在于将MCTS和IRL相结合,利用MCTS的探索能力和IRL的学习能力,实现了安全、高效且类人的自动驾驶规划。与传统的基于规则的规划器相比,TreeIRL能够更好地适应复杂环境,并生成更自然的驾驶轨迹。与纯粹基于学习的规划器相比,TreeIRL通过MCTS保证了轨迹的安全性。

关键设计:MCTS的奖励函数设计需要平衡安全性、进度和舒适性等因素。IRL的奖励函数通常使用深度神经网络进行建模,网络的输入包括车辆的状态、动作以及环境信息,输出为奖励值。损失函数通常采用最大熵IRL的损失函数,鼓励学习到的奖励函数能够解释人类驾驶行为的多样性。具体参数设置未知。

📊 实验亮点

TreeIRL在仿真和真实道路测试中均表现出色。在拉斯维加斯都市区超过500英里的真实道路测试中,TreeIRL在安全性、进度、舒适性和类人行为方面均优于其他规划器。具体性能数据未知,但论文强调了TreeIRL在各种指标上的平衡表现,证明了其在复杂城市环境中的有效性。

🎯 应用场景

TreeIRL可应用于各种自动驾驶场景,尤其是在复杂的城市环境中。该方法能够提高自动驾驶车辆的安全性、效率和舒适性,并使其驾驶行为更接近人类驾驶员。此外,TreeIRL框架具有良好的可扩展性,可以与其他学习算法相结合,进一步提升自动驾驶系统的性能。该研究对于推动自动驾驶技术的商业化落地具有重要意义。

📄 摘要(原文)

We present TreeIRL, a novel planner for autonomous driving that combines Monte Carlo tree search (MCTS) and inverse reinforcement learning (IRL) to achieve state-of-the-art performance in simulation and in real-world driving. The core idea is to use MCTS to find a promising set of safe candidate trajectories and a deep IRL scoring function to select the most human-like among them. We evaluate TreeIRL against both classical and state-of-the-art planners in large-scale simulations and on 500+ miles of real-world autonomous driving in the Las Vegas metropolitan area. Test scenarios include dense urban traffic, adaptive cruise control, cut-ins, and traffic lights. TreeIRL achieves the best overall performance, striking a balance between safety, progress, comfort, and human-likeness. To our knowledge, our work is the first demonstration of MCTS-based planning on public roads and underscores the importance of evaluating planners across a diverse set of metrics and in real-world environments. TreeIRL is highly extensible and could be further improved with reinforcement learning and imitation learning, providing a framework for exploring different combinations of classical and learning-based approaches to solve the planning bottleneck in autonomous driving.