LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers

📄 arXiv: 2603.02035v1 📥 PDF

作者: Fabian Schmidt, Karol Fedurko, Markus Enzweiler, Abhinav Valada

分类: cs.RO, cs.CV

发布日期: 2026-03-02

🔗 代码/项目: GITHUB


💡 一句话要点

LAD-Drive:利用动作感知扩散Transformer桥接语言与轨迹,提升自动驾驶决策能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 多模态学习 扩散模型 语言理解 轨迹规划

📋 核心要点

  1. 现有自动驾驶方法难以将MLLM的语义知识转化为连续轨迹,且单模态规划头限制了多模态驾驶行为的表达。
  2. LAD-Drive通过动作解码器推断概率元动作分布,显式建模意图,并使用动作感知扩散解码器生成安全轨迹。
  3. 在LangAuto基准测试中,LAD-Drive的驾驶评分超越现有方法高达59%,显著降低了路线偏差和碰撞。

📝 摘要(中文)

多模态大型语言模型(MLLM)为自动驾驶提供了高级推理能力,但将其离散的语义知识转化为连续轨迹仍然是一个根本挑战。现有方法通常依赖于单模态规划头,这限制了它们表示多模态驾驶行为的能力。此外,大多数生成方法频繁地以one-hot编码的动作为条件,忽略了复杂场景中至关重要的细微导航不确定性。为了解决这些限制,我们提出了LAD-Drive,一个生成框架,它在结构上将高层意图与低层空间规划分离。LAD-Drive采用动作解码器来推断概率元动作分布,建立一个显式的置信状态,保留了通常被one-hot编码丢失的细微意图。该分布与车辆的运动学状态融合,调节一个动作感知的扩散解码器,该解码器利用截断的去噪过程将学习到的运动锚点细化为安全、运动学上可行的轨迹。在LangAuto基准上的大量评估表明,LAD-Drive实现了最先进的结果,在驾驶评分方面优于竞争基线高达59%,同时显著减少了路线偏差和碰撞。

🔬 方法详解

问题定义:现有自动驾驶方法,特别是基于多模态大型语言模型(MLLM)的方法,在将高层语义指令转化为车辆的连续运动轨迹时面临挑战。现有方法通常依赖于单模态的规划头,无法充分表达复杂驾驶场景中的多模态行为。此外,使用one-hot编码动作会丢失导航的不确定性,导致生成的轨迹不够鲁棒和安全。

核心思路:LAD-Drive的核心思路是将高层意图(由语言指令表达)与低层空间规划解耦。通过引入一个动作解码器来推断概率元动作分布,显式地建模驾驶意图的不确定性。然后,利用这个概率分布来调节一个动作感知的扩散解码器,生成安全且运动学上可行的轨迹。这种解耦的设计使得模型能够更好地理解和执行复杂的驾驶指令。

技术框架:LAD-Drive框架包含以下几个主要模块:1) 语言编码器:用于提取语言指令的语义特征。2) 动作解码器:基于语言特征和车辆状态,推断概率元动作分布。3) 扩散解码器:以元动作分布和车辆状态为条件,通过一个截断的去噪过程,将学习到的运动锚点逐步细化为最终的轨迹。4) 轨迹评估器:用于评估生成轨迹的安全性、可行性和与指令的一致性。

关键创新:LAD-Drive的关键创新在于其动作感知的扩散解码器和概率元动作表示。传统的扩散模型通常以确定性的条件信息为输入,而LAD-Drive利用概率元动作分布作为条件,使得模型能够更好地处理驾驶意图的不确定性。此外,截断的去噪过程能够保证生成的轨迹在运动学上可行且安全。

关键设计:动作解码器可能采用Transformer结构,输出一个动作类别的概率分布。扩散解码器可能使用U-Net结构,通过迭代的去噪过程生成轨迹。损失函数可能包括轨迹与指令的一致性损失、轨迹的平滑性损失以及碰撞惩罚项。截断的去噪过程可能通过限制每一步的噪声幅度来保证轨迹的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LAD-Drive在LangAuto基准测试中取得了显著的性能提升,驾驶评分超越现有方法高达59%,同时显著减少了路线偏差和碰撞。这些结果表明,LAD-Drive能够更好地理解和执行复杂的驾驶指令,生成更安全、更可靠的轨迹。代码和模型将在GitHub上公开。

🎯 应用场景

LAD-Drive的研究成果可应用于自动驾驶汽车、无人配送车等领域,提升车辆在复杂环境下的决策能力和安全性。该方法能够更好地理解人类指令,生成更符合人类驾驶习惯的轨迹,从而提高自动驾驶系统的用户体验和接受度。未来,该技术还可扩展到其他机器人领域,如无人机、服务机器人等。

📄 摘要(原文)

While multimodal large language models (MLLMs) provide advanced reasoning for autonomous driving, translating their discrete semantic knowledge into continuous trajectories remains a fundamental challenge. Existing methods often rely on unimodal planning heads that inherently limit their ability to represent multimodal driving behavior. Furthermore, most generative approaches frequently condition on one-hot encoded actions, discarding the nuanced navigational uncertainty critical for complex scenarios. To resolve these limitations, we introduce LAD-Drive, a generative framework that structurally disentangles high-level intention from low-level spatial planning. LAD-Drive employs an action decoder to infer a probabilistic meta-action distribution, establishing an explicit belief state that preserves the nuanced intent typically lost by one-hot encodings. This distribution, fused with the vehicle's kinematic state, conditions an action-aware diffusion decoder that utilizes a truncated denoising process to refine learned motion anchors into safe, kinematically feasible trajectories. Extensive evaluations on the LangAuto benchmark demonstrate that LAD-Drive achieves state-of-the-art results, outperforming competitive baselines by up to 59% in Driving Score while significantly reducing route deviations and collisions. We will publicly release the code and models on https://github.com/iis-esslingen/lad-drive.