Causal Scene Narration with Runtime Safety Supervision for Vision-Language-Action Driving

📄 arXiv: 2604.01723v1 📥 PDF

作者: Yun Li, Yidu Zhang, Simon Thompson, Ehsan Javanmardi, Manabu Tsukada

分类: cs.RO, cs.AI

发布日期: 2026-04-02

备注: 18 pages, 6 figures, 4 tables


💡 一句话要点

提出因果场景叙述(CSN)框架,提升VLA自动驾驶模型在复杂环境下的决策能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言-动作模型 因果推理 场景理解 安全监督

📋 核心要点

  1. 现有VLA自动驾驶模型难以有效整合导航指令、危险警告和交通状态描述等多种文本输入,导致模型自主学习环境约束。
  2. 论文提出因果场景叙述(CSN)方法,通过意图-约束对齐、定量 grounding 和结构化分离来重构VLA文本输入,提升模型对环境的理解。
  3. 实验表明,CSN在CARLA模拟器上显著提升了驾驶分数,且对感知噪声具有鲁棒性,验证了其在复杂驾驶场景中的有效性。

📝 摘要(中文)

本文提出了一种用于视觉-语言-动作(VLA)自动驾驶模型的因果场景叙述(CSN)方法,旨在通过意图-约束对齐、定量 grounding 和结构化分离来重构 VLA 文本输入。该方法在推理时无需 GPU 成本。此外,还结合了基于 Simplex 的运行时安全监督,以及通过 Plackett-Luce DPO 与负对数似然(NLL)正则化实现的训练时对齐。在 CARLA 模拟器上的多城镇闭环评估表明,CSN 在原始 LMDrive 上将驾驶分数提高了 +31.1%,在偏好对齐的变体上提高了 +24.5%。受控消融实验表明,因果结构贡献了 39.1% 的增益,其余部分归因于信息内容。感知噪声消融实验证实了 CSN 的优势对实际感知误差具有鲁棒性。语义安全监督提高了违规分数,而反应式碰撞时间监控降低了性能,表明 VLA 系统需要意图感知的监控。

🔬 方法详解

问题定义:现有的视觉-语言-动作(VLA)自动驾驶模型在处理复杂场景时,往往将各种文本输入(如导航指令、危险警告、交通状态描述)视为孤立的信息片段,缺乏对这些信息之间因果关系的理解。这导致模型需要自行推断哪些环境约束与当前驾驶行为相关,增加了学习难度和出错风险。现有方法的痛点在于缺乏对场景信息的结构化组织和因果关系建模。

核心思路:论文的核心思路是通过因果场景叙述(CSN)来重构VLA模型的文本输入。CSN旨在通过三个关键步骤:意图-约束对齐、定量 grounding 和结构化分离,将原本分散的文本信息组织成一个具有明确因果关系的叙述,从而帮助模型更好地理解场景并做出更合理的决策。这样设计的目的是让模型能够更清晰地理解驾驶意图、环境约束以及它们之间的关系。

技术框架:CSN框架主要包含以下几个模块:1) 文本输入模块:接收来自不同来源的文本信息,包括导航指令、传感器数据描述等。2) 因果结构构建模块:利用意图-约束对齐、定量 grounding 和结构化分离等技术,将文本信息组织成一个具有因果关系的图结构。3) VLA模型接口:将构建好的因果场景叙述输入到VLA模型中,用于指导驾驶行为。4) 安全监督模块:在运行时进行安全监控,并根据监控结果调整驾驶策略。

关键创新:该论文最重要的技术创新点在于提出了因果场景叙述(CSN)的概念,并设计了一套有效的方法来实现场景信息的因果结构化。与现有方法相比,CSN能够显式地建模场景中不同元素之间的因果关系,从而帮助模型更好地理解场景并做出更合理的决策。此外,CSN在推理时无需额外的GPU成本,具有很高的实用价值。

关键设计:论文中几个关键的设计包括:1) 意图-约束对齐:通过将驾驶意图与环境约束进行对齐,明确了哪些约束与当前驾驶行为相关。2) 定量 grounding:将文本信息与具体的物理量(如距离、速度)进行关联,提高了信息的准确性和可信度。3) 结构化分离:将不同类型的文本信息进行结构化分离,避免了信息之间的混淆。4) Plackett-Luce DPO with negative log-likelihood (NLL) regularization:用于训练时对齐,提升模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CSN在LMDrive数据集上将驾驶分数提高了31.1%,在偏好对齐的变体上提高了24.5%。消融实验表明,因果结构贡献了39.1%的增益。感知噪声消融实验验证了CSN对实际感知误差的鲁棒性。语义安全监督提高了违规分数,表明意图感知的监控对于VLA系统至关重要。

🎯 应用场景

该研究成果可应用于自动驾驶、辅助驾驶等领域,提升车辆在复杂交通环境下的安全性与可靠性。通过更有效地整合多源信息,该方法有望减少交通事故,提高交通效率,并为未来的智能交通系统提供技术支撑。此外,该方法也可推广到其他需要理解复杂场景信息的机器人应用中。

📄 摘要(原文)

Vision-Language-Action (VLA) models for autonomous driving must integrate diverse textual inputs, including navigation commands, hazard warnings, and traffic state descriptions, yet current systems often present these as disconnected fragments, forcing the model to discover on its own which environmental constraints are relevant to the current maneuver. We introduce Causal Scene Narration (CSN), which restructures VLA text inputs through intent-constraint alignment, quantitative grounding, and structured separation, at inference time with zero GPU cost. We complement CSN with Simplex-based runtime safety supervision and training-time alignment via Plackett-Luce DPO with negative log-likelihood (NLL) regularization. A multi-town closed-loop CARLA evaluation shows that CSN improves Driving Score by +31.1% on original LMDrive and +24.5% on the preference-aligned variant. A controlled ablation reveals that causal structure accounts for 39.1% of this gain, with the remainder attributable to information content alone. A perception noise ablation confirms that CSN's benefit is robust to realistic sensing errors. Semantic safety supervision improves Infraction Score, while reactive Time-To-Collision monitoring degrades performance, demonstrating that intent-aware monitoring is needed for VLA systems.