Unifying Language-Action Understanding and Generation for Autonomous Driving

📄 arXiv: 2603.01441v1 📥 PDF

作者: Xinyang Wang, Qian Liu, Wenjie Ding, Zhao Yang, Wei Li, Chang Liu, Bailin Li, Kun Zhan, Xianpeng Lang, Wei Chen

分类: cs.CV, cs.RO

发布日期: 2026-03-02


💡 一句话要点

LinkVLA:统一语言-动作理解与生成,提升自动驾驶指令跟随性能与效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言-动作模型 指令跟随 动作生成 多模态学习

📋 核心要点

  1. 现有VLA模型在自动驾驶中存在语言指令与动作输出不对齐的问题,限制了其性能。
  2. LinkVLA通过统一语言和动作token,并引入辅助动作理解目标,实现语言-动作的结构性和语义性对齐。
  3. LinkVLA采用粗到精的两步生成方法,显著提升了动作序列的生成效率,实验表明推理时间减少了86%。

📝 摘要(中文)

本文提出了一种名为LinkVLA的新型架构,旨在解决端到端自动驾驶中视觉-语言-动作(VLA)模型存在的语言指令与动作输出不对齐以及自回归动作生成效率低下的问题。LinkVLA通过将语言和动作token统一到一个共享的离散代码本中,并在单一多模态模型中处理,从而建立结构性的连接,从根本上加强跨模态一致性。此外,引入辅助动作理解目标,训练模型从轨迹生成描述性字幕,促进双向语言-动作映射,从而创建深度语义连接。最后,采用两步粗到精(C2F)生成方法替代了缓慢的逐步生成,高效地解码动作序列,节省了86%的推理时间。在闭环驾驶基准测试上的实验表明,该方法在指令跟随准确性和驾驶性能方面均取得了持续的提升,并降低了推理延迟。

🔬 方法详解

问题定义:现有基于视觉-语言-动作(VLA)的自动驾驶模型,在理解语言指令并生成相应的驾驶动作时,存在两个主要问题:一是语言指令和动作输出之间存在不对齐现象,导致模型难以准确理解指令意图并执行正确的动作;二是传统的自回归动作生成方式效率低下,推理速度慢,难以满足自动驾驶的实时性要求。

核心思路:LinkVLA的核心思路是通过建立语言和动作之间的结构性和语义性连接,从而解决不对齐问题,并通过改进动作生成方式来提高效率。具体来说,将语言和动作token统一到一个共享的离散代码本中,强制模型学习它们之间的对应关系。同时,引入辅助任务,让模型学习从驾驶轨迹生成描述性语言,从而增强语言和动作之间的双向理解。

技术框架:LinkVLA的整体架构包含以下几个主要模块:1) 多模态编码器:用于编码视觉输入、语言指令和动作序列;2) 共享离散代码本:用于将语言和动作token映射到统一的离散空间;3) 动作解码器:用于生成驾驶动作序列,采用粗到精的两步生成方法;4) 辅助动作理解模块:用于从驾驶轨迹生成描述性语言。整个流程是,首先通过多模态编码器提取特征,然后将语言和动作token映射到共享代码本,接着使用动作解码器生成动作序列,同时利用辅助动作理解模块进行训练。

关键创新:LinkVLA最重要的技术创新点在于:1) 结构性连接:通过共享离散代码本,从结构上统一了语言和动作,强制模型学习它们之间的对应关系,解决了不对齐问题;2) 深度语义连接:引入辅助动作理解任务,增强了语言和动作之间的双向理解,进一步提升了对齐效果;3) 高效动作生成:采用粗到精的两步生成方法,显著提高了动作序列的生成效率,满足了自动驾驶的实时性要求。与现有方法相比,LinkVLA在对齐性和效率方面都有显著提升。

关键设计:在共享离散代码本的设计上,使用了向量量化(Vector Quantization)技术,将连续的特征向量映射到离散的代码本中。在辅助动作理解模块中,使用了Transformer解码器来生成描述性语言。在粗到精的动作生成方法中,首先生成一个粗略的动作序列,然后对其进行细化,从而提高生成效率。损失函数包括指令跟随损失、动作理解损失和代码本量化损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LinkVLA在闭环驾驶基准测试中取得了显著的性能提升。在指令跟随准确性方面,LinkVLA优于现有方法。更重要的是,LinkVLA通过粗到精的动作生成方法,将推理时间减少了86%,显著提高了效率,使其更适用于实际的自动驾驶应用。

🎯 应用场景

LinkVLA的研究成果可应用于各种自动驾驶场景,例如城市道路自动驾驶、高速公路自动驾驶等。该方法能够提高自动驾驶系统对复杂指令的理解能力和执行精度,从而提升驾驶安全性和用户体验。此外,该研究思路也可以推广到其他机器人控制领域,例如服务机器人、工业机器人等。

📄 摘要(原文)

Vision-Language-Action (VLA) models are emerging as a promising paradigm for end-to-end autonomous driving, valued for their potential to leverage world knowledge and reason about complex driving scenes. However, existing methods suffer from two critical limitations: a persistent misalignment between language instructions and action outputs, and the inherent inefficiency of typical auto-regressive action generation. In this paper, we introduce LinkVLA, a novel architecture that directly addresses these challenges to enhance both alignment and efficiency. First, we establish a structural link by unifying language and action tokens into a shared discrete codebook, processed within a single multi-modal model. This structurally enforces cross-modal consistency from the ground up. Second, to create a deep semantic link, we introduce an auxiliary action understanding objective that trains the model to generate descriptive captions from trajectories, fostering a bidirectional language-action mapping. Finally, we replace the slow, step-by-step generation with a two-step coarse-to-fine generation method C2F that efficiently decodes the action sequence, saving 86% inference time. Experiments on closed-loop driving benchmarks show consistent gains in instruction following accuracy and driving performance, alongside reduced inference latency.