SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

📄 arXiv: 2601.03044v1 📥 PDF

作者: Mingjie Pan, Siyuan Feng, Qinglin Zhang, Xinchen Li, Jianheng Song, Chendi Qu, Yi Wang, Chuankang Li, Ziyu Xiong, Zhi Chen, Yi Liu, Jianlan Luo

分类: cs.RO

发布日期: 2026-01-06


💡 一句话要点

提出SOP:一种可扩展的在线后训练系统,用于视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 在线学习 后训练 机器人集群 分布式训练

📋 核心要点

  1. 现有VLA模型后训练方法受限于离线、单机器人和任务特定,难以实现有效的在线策略适应和真实世界交互中的可扩展学习。
  2. SOP通过闭环架构,将机器人集群的在线经验和人工干预信号传输到云端学习器,并异步接收更新策略,实现高效的在线学习。
  3. 实验表明,SOP显著提升了VLA模型在真实世界操作任务中的性能,且性能随机器人数量近线性扩展,后训练可在数小时内完成。

📝 摘要(中文)

视觉-语言-动作(VLA)模型通过大规模预训练实现了强大的泛化能力,但实际部署除了广泛的通用性外,还需要专家级的任务熟练度。现有的VLA模型后训练方法通常是离线的、单机器人的或特定于任务的,限制了有效的在线策略适应和从真实世界交互中进行可扩展学习。我们介绍了一种可扩展的在线后训练(SOP)系统,该系统支持通用VLA模型在物理世界中直接进行在线、分布式、多任务后训练。SOP通过闭环架构紧密耦合执行和学习,其中机器人集群持续向中央云学习器传输在线策略经验和人工干预信号,并异步接收更新的策略。这种设计支持快速在线策略纠正,通过并行部署扩展经验收集,并在适应过程中保持通用性。SOP与后训练算法的选择无关;我们使用交互式模仿学习(HG-DAgger)和强化学习(RECAP)来实例化它。在一系列真实世界的操作任务中,包括叠布、组装盒子和补充杂货,我们表明SOP显著提高了大型预训练VLA模型的性能,同时在任务之间保持单一共享策略。有效的后训练可以在数小时的真实世界交互中实现,并且性能与机器人集群中的机器人数量呈近似线性关系。这些结果表明,将在线学习与集群规模部署紧密结合有助于实现通用机器人策略在物理世界中高效、可靠和可扩展的后训练。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型的后训练方法主要存在三个痛点:一是离线训练,无法充分利用在线交互数据进行策略优化;二是单机器人训练,难以扩展到大规模机器人集群;三是任务特定训练,导致模型泛化能力受限。这些问题阻碍了VLA模型在真实世界复杂环境中的高效部署和应用。

核心思路:SOP的核心思路是将VLA模型的执行和学习紧密耦合,构建一个闭环系统。通过机器人集群持续收集在线策略经验,并结合人工干预信号,实时更新模型策略。这种在线学习方式能够快速适应环境变化,提高模型性能。同时,SOP采用分布式架构,支持大规模机器人集群的并行训练,提高了训练效率和可扩展性。

技术框架:SOP系统主要包含三个模块:机器人集群、中央云学习器和策略部署模块。机器人集群负责执行任务并收集在线经验数据,包括视觉、语言和动作信息。中央云学习器接收来自机器人集群的数据,并使用后训练算法(如HG-DAgger或RECAP)更新模型策略。策略部署模块将更新后的策略异步分发到机器人集群,实现策略的持续优化。整个系统形成一个闭环,不断迭代优化模型性能。

关键创新:SOP最重要的创新在于其在线、分布式和多任务的后训练能力。与传统的离线训练方法相比,SOP能够充分利用在线交互数据,实现更快的策略适应和更高的模型性能。与单机器人训练方法相比,SOP能够通过大规模机器人集群的并行训练,显著提高训练效率和可扩展性。与任务特定训练方法相比,SOP能够保持模型的通用性,使其能够适应多种不同的任务。

关键设计:SOP的关键设计包括:1) 闭环架构,实现执行和学习的紧密耦合;2) 分布式架构,支持大规模机器人集群的并行训练;3) 灵活的后训练算法选择,可以根据具体任务选择合适的算法(如HG-DAgger或RECAP);4) 人工干预机制,允许人工对机器人行为进行纠正,加速策略学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SOP能够显著提高VLA模型在真实世界操作任务中的性能。例如,在叠布、组装盒子和补充杂货等任务中,SOP能够使模型在数小时内达到较高的性能水平。此外,实验还表明,SOP的性能与机器人集群中的机器人数量呈近似线性关系,表明其具有良好的可扩展性。与基线方法相比,SOP在多个任务上都取得了显著的性能提升。

🎯 应用场景

SOP系统具有广泛的应用前景,可用于各种需要机器人进行复杂操作的场景,如智能制造、仓储物流、家庭服务等。通过SOP,可以快速提升机器人在这些场景中的任务执行能力,降低部署成本,提高工作效率。此外,SOP的在线学习能力使其能够适应动态变化的环境,为机器人在未知环境中的应用提供了可能。

📄 摘要(原文)

Vision-language-action (VLA) models achieve strong generalization through large-scale pre-training, but real-world deployment requires expert-level task proficiency in addition to broad generality. Existing post-training approaches for VLA models are typically offline, single-robot, or task-specific, limiting effective on-policy adaptation and scalable learning from real-world interaction. We introduce a Scalable Online Post-training (SOP) system that enables online, distributed, multi-task post-training of generalist VLA models directly in the physical world. SOP tightly couples execution and learning through a closed-loop architecture in which a fleet of robots continuously streams on-policy experience and human intervention signals to a centralized cloud learner, and asynchronously receives updated policies. This design supports prompt on-policy correction, scales experience collection through parallel deployment, and preserves generality during adaptation. SOP is agnostic to the choice of post-training algorithm; we instantiate it with both interactive imitation learning (HG-DAgger) and reinforcement learning (RECAP). Across a range of real-world manipulation tasks including cloth folding, box assembly, and grocery restocking, we show that SOP substantially improves the performance of large pretrained VLA models while maintaining a single shared policy across tasks. Effective post-training can be achieved within hours of real-world interaction, and performance scales near-linearly with the number of robots in the fleet. These results suggest that tightly coupling online learning with fleet-scale deployment is instrumental to enabling efficient, reliable, and scalable post-training of generalist robot policies in the physical world.