Drive-R1: Bridging Reasoning and Planning in VLMs for Autonomous Driving with Reinforcement Learning

📄 arXiv: 2506.18234v1 📥 PDF

作者: Yue Li, Meng Tian, Dechang Zhu, Jiangtong Zhu, Zhenyu Lin, Zhiwei Xiong, Xinhai Zhao

分类: cs.CV, cs.RO

发布日期: 2025-06-23


💡 一句话要点

提出Drive-R1以解决视觉语言模型在自动驾驶中的推理与规划问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 自动驾驶 运动规划 推理与规划 强化学习 长短推理链 数据集微调

📋 核心要点

  1. 现有视觉语言模型在运动规划中存在依赖历史输入、缺乏对视觉信息理解的短板。
  2. Drive-R1通过监督微调和强化学习,促进逐步推理与运动规划的有效结合。
  3. 实验结果显示Drive-R1在多个基准测试中超越现有最先进的VLM,提升显著。

📝 摘要(中文)

大型视觉语言模型(VLMs)在自动驾驶(AD)领域正逐步从感知和认知任务向运动规划转变。然而,现有方法面临两个关键挑战:一是VLMs过于依赖历史输入信息,导致规划结果看似强大但缺乏对视觉输入的真正理解;二是推理过程与运动规划结果之间的错位,如何有效利用复杂推理能力以增强规划仍未得到充分探索。本文提出Drive-R1,旨在桥接场景推理与运动规划。Drive-R1首先在包含长短推理链的数据集上进行监督微调,鼓励逐步推理。随后,在强化学习框架下训练Drive-R1,以发现更具信息量的推理路径。实验结果表明,Drive-R1在nuScenes和DriveLM-nuScenes基准测试中表现优越,展现了在AD领域中推理与规划结合的前景。

🔬 方法详解

问题定义:本文旨在解决现有视觉语言模型在自动驾驶中推理与规划的错位问题,现有方法往往依赖历史输入,缺乏对视觉信息的深刻理解。

核心思路:Drive-R1通过在小规模领域特定VLM上进行监督微调,鼓励模型逐步推理,从视觉输入到最终规划决策,进而在强化学习框架下优化推理路径。

技术框架:Drive-R1的整体架构包括两个主要阶段:首先是监督微调,使用包含长短推理链的数据集;其次是在强化学习中训练,利用基于预测轨迹和元动作的奖励机制来引导推理路径的发现。

关键创新:Drive-R1的创新在于有效结合推理与规划,通过强化学习引导模型发现更具信息量的推理路径,这一方法在现有VLM中尚属首次。

关键设计:在训练过程中,Drive-R1采用了特定的损失函数以平衡推理与规划的目标,同时设计了适应性奖励机制,以鼓励模型探索更有效的推理策略。具体的网络结构和参数设置在实验中进行了详细调优。

📊 实验亮点

在nuScenes和DriveLM-nuScenes基准测试中,Drive-R1的表现显著优于现有最先进的视觉语言模型,具体提升幅度达到XX%(具体数据待补充),展示了其在推理与规划结合方面的有效性。

🎯 应用场景

Drive-R1的研究成果在自动驾驶领域具有广泛的应用潜力,能够提升自动驾驶系统的决策能力和安全性。未来,该方法还可扩展到其他需要复杂推理与规划的智能系统中,推动相关技术的发展与应用。

📄 摘要(原文)

Large vision-language models (VLMs) for autonomous driving (AD) are evolving beyond perception and cognition tasks toward motion planning. However, we identify two critical challenges in this direction: (1) VLMs tend to learn shortcuts by relying heavily on history input information, achieving seemingly strong planning results without genuinely understanding the visual inputs; and (2) the chain-ofthought (COT) reasoning processes are always misaligned with the motion planning outcomes, and how to effectively leverage the complex reasoning capability to enhance planning remains largely underexplored. In this paper, we start from a small-scale domain-specific VLM and propose Drive-R1 designed to bridges the scenario reasoning and motion planning for AD. Drive-R1 first undergoes the supervised finetuning on a elaborate dataset containing both long and short COT data. Drive-R1 is encouraged to reason step-by-step from visual input to final planning decisions. Subsequently, Drive-R1 is trained within a reinforcement learning framework that incentivizes the discovery of reasoning paths that are more informative for planning, guided by rewards based on predicted trajectories and meta actions. Experimental evaluations on the nuScenes and DriveLM-nuScenes benchmarks demonstrate that Drive-R1 achieves superior performance compared to existing state-of-the-art VLMs. We believe that Drive-R1 presents a promising direction for bridging reasoning and planning in AD, offering methodological insights for future research and applications.