Pure Vision Language Action (VLA) Models: A Comprehensive Survey

作者: Dapeng Zhang, Jing Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou

分类: cs.RO, cs.AI

发布日期: 2025-09-23 (更新: 2025-11-10)

💡 一句话要点

VLA模型综述：将视觉语言模型从序列生成器转变为机器人控制的主动Agent

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人控制 视觉语言模型 通用机器人 深度学习

📋 核心要点

现有机器人控制方法泛化性不足，难以适应复杂动态环境。
VLA模型将VLMs转变为主动Agent，直接进行操作和决策。
综述对VLA模型进行分类、分析，并展望未来发展方向。

📝 摘要（中文）

视觉语言动作（VLA）模型的出现标志着从传统基于策略的控制到通用机器人技术的范式转变，将视觉语言模型（VLMs）从被动的序列生成器转变为在复杂、动态环境中进行操作和决策的主动Agent。本综述深入研究了先进的VLA方法，旨在提供清晰的分类和对现有研究的系统、全面的回顾。它全面分析了VLA在不同场景中的应用，并将VLA方法分为几种范式：基于自回归、基于扩散、基于强化学习、混合方法和专用方法；同时详细检查它们的动机、核心策略和实现。此外，还介绍了基础数据集、基准和仿真平台。在当前VLA格局的基础上，本综述进一步提出了关于关键挑战和未来方向的观点，以推进VLA模型和通用机器人技术的研究。通过综合三百多项最新研究的见解，本综述描绘了这个快速发展领域的轮廓，并强调了将塑造可扩展、通用VLA方法发展的机遇和挑战。

🔬 方法详解

问题定义：现有机器人控制方法依赖于预定义的策略，难以适应复杂和动态的环境。视觉语言模型（VLMs）虽然在理解视觉和语言方面取得了显著进展，但通常被动地生成序列，缺乏与环境的交互能力。因此，如何将VLMs应用于机器人控制，使其能够主动地进行操作和决策，是一个重要的研究问题。

核心思路：论文的核心思路是将VLMs从被动的序列生成器转变为主动的Agent，使其能够根据视觉输入和语言指令，直接生成动作序列，从而控制机器人执行任务。这种方法避免了传统方法中手动设计策略的复杂性，并提高了机器人的泛化能力。

技术框架：VLA模型的技术框架通常包括以下几个主要模块：视觉编码器（用于提取视觉特征）、语言编码器（用于提取语言特征）、动作解码器（用于生成动作序列）以及环境交互模块（用于与环境进行交互并获取反馈）。根据不同的实现方式，VLA模型可以分为基于自回归、基于扩散、基于强化学习、混合方法和专用方法等几种范式。

关键创新：VLA模型最重要的技术创新点在于其端到端的学习方式，即直接从视觉输入和语言指令学习到动作序列的映射关系。这种方法避免了传统方法中手动设计策略的复杂性，并提高了机器人的泛化能力。此外，VLA模型还能够利用VLMs强大的视觉和语言理解能力，从而更好地理解用户的指令和环境信息。

关键设计：VLA模型的关键设计包括：如何有效地融合视觉和语言特征、如何设计动作解码器以生成合理的动作序列、如何利用强化学习等方法来优化模型的性能等。此外，数据集的选择和预处理也是VLA模型的重要组成部分。常用的数据集包括用于机器人操作的仿真数据集和真实世界数据集。

📊 实验亮点

该综述分析了超过三百篇相关论文，对VLA模型进行了全面的分类和总结。它不仅回顾了现有VLA模型的研究进展，还提出了未来研究方向，例如如何提高VLA模型的泛化能力、如何解决VLA模型在真实世界中的应用问题等。该综述为VLA模型的研究人员提供了一个有价值的参考。

🎯 应用场景

VLA模型具有广泛的应用前景，例如家庭服务机器人、工业自动化、医疗辅助机器人等。它们可以帮助机器人更好地理解人类的指令，并在复杂环境中自主完成任务。未来，VLA模型有望成为通用机器人技术的重要组成部分，推动机器人技术的发展。

📄 摘要（原文）

The emergence of Vision Language Action (VLA) models marks a paradigm shift from traditional policy-based control to generalized robotics, reframing Vision Language Models (VLMs) from passive sequence generators into active agents for manipulation and decision-making in complex, dynamic environments. This survey delves into advanced VLA methods, aiming to provide a clear taxonomy and a systematic, comprehensive review of existing research. It presents a comprehensive analysis of VLA applications across different scenarios and classifies VLA approaches into several paradigms: autoregression-based, diffusion-based, reinforcement-based, hybrid, and specialized methods; while examining their motivations, core strategies, and implementations in detail. In addition, foundational datasets, benchmarks, and simulation platforms are introduced. Building on the current VLA landscape, the review further proposes perspectives on key challenges and future directions to advance research in VLA models and generalizable robotics. By synthesizing insights from over three hundred recent studies, this survey maps the contours of this rapidly evolving field and highlights the opportunities and challenges that will shape the development of scalable, general-purpose VLA methods.

Pure Vision Language Action (VLA) Models: A Comprehensive Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册