A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

作者: Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang

分类: cs.RO, cs.AI

发布日期: 2025-09-19

备注: 26 pages,10 figures

💡 一句话要点

提出基于视觉-语言-动作-评价模型的VLAC，用于提升机器人真实世界强化学习的效率和成功率。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人强化学习 视觉语言模型 过程奖励模型 人机协作 真实世界操作 InternVL 奖励函数设计

📋 核心要点

现有机器人强化学习方法依赖于手工设计的稀疏奖励，导致探索效率低下，难以泛化到新任务。
VLAC模型通过学习视觉、语言和动作之间的关系，自动生成密集的奖励信号，无需人工设计，支持零样本迁移。
实验表明，VLAC在真实机器人任务中显著提升了强化学习的成功率和样本效率，并能通过人机协作进一步优化。

📝 摘要（中文）

本文提出了一种名为VLAC的通用过程奖励模型，它基于InternVL，并使用大规模异构数据集进行训练，旨在解决视觉-语言-动作（VLA）模型在机器人真实世界强化学习中因稀疏的手工奖励和低效探索而受限的问题。给定成对的观察和语言目标，VLAC输出密集的进度增量和完成信号，消除了特定于任务的奖励工程，并支持一次性上下文迁移到未见过的任务和环境。VLAC通过视觉-语言数据集来增强感知、对话和推理能力，以及机器人和人类轨迹数据来支持动作生成和进度估计，并通过构建大量的负样本和语义不匹配的样本来拒绝不相关的提示，并检测回归或停滞。通过提示控制，单个VLAC模型交替生成奖励和动作token，统一了评价器和策略。在异步真实世界RL循环中部署时，我们分层使用人机协作协议（离线演示回放、回报和探索、人工引导探索），从而加速探索并稳定早期学习。在四个不同的真实世界操作任务中，VLAC将成功率从大约30％提高到大约90％，在200个真实世界交互episode内；结合人机协作干预，样本效率进一步提高了50％，最终成功率高达100％。

🔬 方法详解

问题定义：现有机器人强化学习方法在真实世界环境中面临挑战，主要痛点在于奖励函数的设计。传统方法依赖于手工设计的稀疏奖励，这不仅耗时耗力，而且难以泛化到不同的任务和环境中。此外，探索效率低下也是一个关键问题，机器人难以有效地探索状态空间，找到最优策略。

核心思路：本文的核心思路是利用视觉-语言模型学习一个通用的过程奖励模型，该模型能够根据视觉输入和语言目标，自动生成密集的奖励信号。通过学习人类和机器人的行为轨迹，模型能够理解任务的进展，并为机器人提供更有效的反馈。这种方法避免了手工设计奖励函数的需要，并提高了探索效率。

技术框架：VLAC模型基于InternVL架构，并使用大规模异构数据集进行训练。整体框架包含以下几个主要模块：1) 视觉编码器，用于提取视觉特征；2) 语言编码器，用于提取语言特征；3) 动作生成器，用于生成机器人的动作；4) 进度估计器，用于估计任务的进展。模型通过提示控制，交替生成奖励和动作token，统一了评价器和策略。此外，还引入了人机协作协议，以加速探索和稳定早期学习。

关键创新：VLAC的关键创新在于其通用的过程奖励模型，该模型能够自动生成密集的奖励信号，无需人工设计。此外，模型还能够通过学习人类和机器人的行为轨迹，理解任务的进展，并为机器人提供更有效的反馈。这种方法不仅提高了强化学习的效率，而且增强了模型的泛化能力。

关键设计：VLAC模型使用了大量的负样本和语义不匹配的样本进行训练，以增强模型拒绝不相关提示以及检测回归或停滞的能力。此外，模型还使用了提示控制技术，通过交替生成奖励和动作token，统一了评价器和策略。人机协作协议包括离线演示回放、回报和探索、人工引导探索等环节，以加速探索和稳定早期学习。

📊 实验亮点

实验结果表明，VLAC模型在四个不同的真实世界操作任务中，将成功率从大约30％提高到大约90％，在200个真实世界交互episode内。结合人机协作干预，样本效率进一步提高了50％，最终成功率高达100％。这些结果表明，VLAC模型能够显著提升机器人强化学习的效率和成功率。

🎯 应用场景

该研究成果可广泛应用于各种机器人操作任务，例如家庭服务机器人、工业自动化机器人和医疗辅助机器人。通过自动生成奖励信号，可以降低机器人部署的成本和难度，并提高机器人的自主性和适应性。未来，该技术有望推动机器人技术在更多领域的应用。

📄 摘要（原文）

Robotic real-world reinforcement learning (RL) with vision-language-action (VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient exploration. We introduce VLAC, a general process reward model built upon InternVL and trained on large scale heterogeneous datasets. Given pairwise observations and a language goal, it outputs dense progress delta and done signal, eliminating task-specific reward engineering, and supports one-shot in-context transfer to unseen tasks and environments. VLAC is trained on vision-language datasets to strengthen perception, dialogic and reasoning capabilities, together with robot and human trajectories data that ground action generation and progress estimation, and additionally strengthened to reject irrelevant prompts as well as detect regression or stagnation by constructing large numbers of negative and semantically mismatched samples. With prompt control, a single VLAC model alternately generating reward and action tokens, unifying critic and policy. Deployed inside an asynchronous real-world RL loop, we layer a graded human-in-the-loop protocol (offline demonstration replay, return and explore, human guided explore) that accelerates exploration and stabilizes early learning. Across four distinct real-world manipulation tasks, VLAC lifts success rates from about 30\% to about 90\% within 200 real-world interaction episodes; incorporating human-in-the-loop interventions yields a further 50% improvement in sample efficiency and achieves up to 100% final success.

A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册