LVLM-MPC Collaboration for Autonomous Driving: A Safety-Aware and Task-Scalable Control Architecture

📄 arXiv: 2505.04980v2 📥 PDF

作者: Kazuki Atsuta, Kohei Honda, Hiroyuki Okuda, Tatsuya Suzuki

分类: cs.RO, eess.SY

发布日期: 2025-05-08 (更新: 2025-07-15)

备注: 8 pages, 8 figures


💡 一句话要点

提出LVLM与MPC协作以解决自动驾驶安全性与任务可扩展性问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言模型 模型预测控制 任务切换 安全性 灵活性 仿真实验

📋 核心要点

  1. 现有的LVLM在自动驾驶任务中面临安全性和低层运动规划可行性不一致的挑战。
  2. 本文提出将LVLM与MPC结合,通过MPC Builder根据LVLM生成的任务命令自动生成MPC,确保任务的安全执行。
  3. 仿真实验表明,该系统能够安全有效地处理高速公路驾驶,同时保持LVLM的灵活性和适应性。

📝 摘要(中文)

本文提出了一种新颖的集成框架,将大型视觉语言模型(LVLM)与模型预测控制(MPC)结合,以实现自动驾驶中的任务可扩展性和安全性。LVLM在多样化驾驶场景中的高层任务规划方面表现出色,但由于其并非专为驾驶设计,且推理与低层运动规划的可行性不一致,安全性和任务切换的平滑性仍然存在顾虑。本文通过将LVLM与MPC Builder集成,基于LVLM生成的符号任务命令自动生成MPC,确保最优性和安全性。生成的MPC能够有效辅助LVLM驱动的任务切换,提供任务可行性的反馈,并生成任务切换感知的MPC。通过仿真实验,验证了该方法在高速公路驾驶中的安全性和有效性,同时保持了LVLM的灵活性和适应性。

🔬 方法详解

问题定义:本文旨在解决现有LVLM在自动驾驶中的安全性和任务切换平滑性不足的问题。现有方法未能有效结合高层任务规划与低层运动控制,导致安全隐患。

核心思路:通过将LVLM与MPC结合,利用MPC Builder根据LVLM生成的符号任务命令动态生成MPC,以确保任务执行的安全性和最优性。

技术框架:整体架构包括LVLM进行高层任务规划、MPC Builder根据任务命令生成MPC、以及反馈机制用于评估任务的可行性和生成任务切换感知的MPC。

关键创新:本研究的主要创新在于将LVLM与MPC的动态集成,解决了传统方法中高层与低层控制之间的脱节问题,实现了安全且灵活的自动驾驶控制。

关键设计:在MPC的生成过程中,设计了特定的损失函数以确保任务的安全性,并设置了反馈机制以实时评估任务的可行性,确保系统在复杂场景下的适应性。

📊 实验亮点

实验结果显示,所提出的系统在高速公路驾驶场景中表现出色,能够在确保安全的前提下,灵活应对多种驾驶任务。与传统方法相比,系统在任务切换的响应时间和安全性上有显著提升,具体性能数据尚未披露。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶汽车、智能交通系统和机器人导航等。通过提高自动驾驶系统的安全性和灵活性,能够在复杂的城市环境和高速公路场景中实现更高效的驾驶体验,推动智能交通的发展。

📄 摘要(原文)

This paper proposes a novel Large Vision-Language Model (LVLM) and Model Predictive Control (MPC) integration framework that delivers both task scalability and safety for Autonomous Driving (AD). LVLMs excel at high-level task planning across diverse driving scenarios. However, since these foundation models are not specifically designed for driving and their reasoning is not consistent with the feasibility of low-level motion planning, concerns remain regarding safety and smooth task switching. This paper integrates LVLMs with MPC Builder, which automatically generates MPCs on demand, based on symbolic task commands generated by the LVLM, while ensuring optimality and safety. The generated MPCs can strongly assist the execution or rejection of LVLM-driven task switching by providing feedback on the feasibility of the given tasks and generating task-switching-aware MPCs. Our approach provides a safe, flexible, and adaptable control framework, bridging the gap between cutting-edge foundation models and reliable vehicle operation. We demonstrate the effectiveness of our approach through a simulation experiment, showing that our system can safely and effectively handle highway driving while maintaining the flexibility and adaptability of LVLMs.