CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning

作者: Dongchi Huang, Zhirui Fang, Tianle Zhang, Yihang Li, Lin Zhao, Chunhe Xia

分类: cs.RO, cs.LG

发布日期: 2025-08-04

💡 一句话要点

提出CO-RFT以解决VLA模型微调中的样本效率问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 强化学习 模仿学习 动作分块 机器人控制 样本效率 训练稳定性

📋 核心要点

现有方法在使用强化学习微调VLA模型时面临样本效率低、动作分块兼容性差和训练不稳定等挑战。
本文提出了Chunked RL框架，并在此基础上开发了CO-RFT算法，结合模仿学习与离线强化学习进行微调。
实验结果显示，CO-RFT在成功率上提高了57%，周期时间减少了22.3%，并在新位置上展现出44.3%的成功率。

📝 摘要（中文）

视觉-语言-动作（VLA）模型在现实世界的机器人控制中展现出显著潜力，激励研究者探索通过强化学习（RL）对这些模型进行微调。然而，使用RL微调VLA模型仍面临样本效率、动作分块兼容性和训练稳定性等挑战。为解决这些问题，本文提出了一种新的强化学习框架——Chunked RL，专门针对VLA模型设计。基于此框架，提出了CO-RFT算法，旨在通过有限的演示样本（30至60个样本）对VLA模型进行微调。实验结果表明，CO-RFT在真实环境中超越了以往的监督方法，成功率提高了57%，周期时间减少了22.3%。此外，该方法在未见位置上展现出强大的位置泛化能力，成功率达到了44.3%。

🔬 方法详解

问题定义：本文旨在解决使用强化学习微调视觉-语言-动作（VLA）模型时的样本效率低下和训练不稳定等问题。现有方法在处理动作分块时存在兼容性不足，导致训练效果不理想。

核心思路：论文提出的核心思路是通过Chunked RL框架，结合模仿学习和离线强化学习，优化VLA模型的微调过程。通过引入动作分块，提升了样本利用效率和训练稳定性。

技术框架：整体架构包括两个主要阶段：首先进行模仿学习（IL），对模型进行全参数微调以初始化骨干网络和策略；然后实施离线强化学习，结合动作分块优化预训练策略。

关键创新：最重要的技术创新在于将动作分块引入到时间差分（TD）学习中，形成了专门针对VLA模型的Chunked RL框架。这一创新显著提升了模型的训练效率和泛化能力。

关键设计：在关键设计上，CO-RFT算法使用了有限的演示样本（30至60个），并通过全参数微调初始化模型，随后通过离线强化学习优化策略，确保了训练过程的稳定性和高效性。具体的损失函数和网络结构设计在论文中详细描述。

📊 实验亮点

实验结果显示，CO-RFT算法在真实环境中成功率提高了57%，周期时间减少了22.3%。此外，该方法在未见位置的成功率达到了44.3%，展现出强大的位置泛化能力，显著优于以往的监督学习方法。

🎯 应用场景

该研究的潜在应用领域包括智能机器人控制、自动化系统和人机交互等。通过提升VLA模型的微调效率和泛化能力，CO-RFT可为实际应用提供更为灵活和高效的解决方案，推动机器人技术在复杂环境中的应用。未来，该方法有望在更多领域实现广泛应用，提升智能系统的自主决策能力。

📄 摘要（原文）

Vision-Language-Action (VLA) models demonstrate significant potential for developing generalized policies in real-world robotic control. This progress inspires researchers to explore fine-tuning these models with Reinforcement Learning (RL). However, fine-tuning VLA models with RL still faces challenges related to sample efficiency, compatibility with action chunking, and training stability. To address these challenges, we explore the fine-tuning of VLA models through offline reinforcement learning incorporating action chunking. In this work, we propose Chunked RL, a novel reinforcement learning framework specifically designed for VLA models. Within this framework, we extend temporal difference (TD) learning to incorporate action chunking, a prominent characteristic of VLA models. Building upon this framework, we propose CO-RFT, an algorithm aimed at fine-tuning VLA models using a limited set of demonstrations (30 to 60 samples). Specifically, we first conduct imitation learning (IL) with full parameter fine-tuning to initialize both the backbone and the policy. Subsequently, we implement offline RL with action chunking to optimize the pretrained policy. Our empirical results in real-world environments demonstrate that CO-RFT outperforms previous supervised methods, achieving a 57% improvement in success rate and a 22.3% reduction in cycle time. Moreover, our method exhibits robust positional generalization capabilities, attaining a success rate of 44.3% in previously unseen positions.

CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册