Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation

📄 arXiv: 2603.05185v1 📥 PDF

作者: Pengfei Yi, Yingjie Ma, Wenjiang Xu, Yanan Hao, Shuai Gan, Wanting Li, Shanlin Zhong

分类: cs.RO

发布日期: 2026-03-05


💡 一句话要点

提出Critic in the Loop框架,解决长时程操作中VLM推理延迟与VLA语义不足的矛盾

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉机器人 长时程操作 视觉语言模型 动态调度 鲁棒性 自主性 Critic网络

📋 核心要点

  1. 视觉机器人操作面临高层语义理解与底层快速反应的挑战,现有方法难以兼顾。
  2. 论文提出Critic in the Loop框架,利用视觉Critic动态调度VLM和VLA,实现认知规划与快速执行的平衡。
  3. 实验表明,该方法在长时程操作任务中取得了SOTA性能,并提高了系统在OOD场景中的鲁棒性。

📝 摘要(中文)

本文提出了一种名为“Critic in the Loop”的自适应分层框架,旨在解决视觉机器人操作中高层语义推理与底层反应控制之间的平衡问题。该框架由动态的VLM-Expert调度驱动,核心是一个仿生三系统架构,包括用于全局推理的VLM大脑、用于反应执行的VLA小脑和一个轻量级的视觉Critic。Critic持续监控工作空间,动态地路由控制权限,通过VLA维持快速闭环执行常规子任务,并在检测到任务停滞或失败等执行异常时自适应地触发VLM进行重新规划。此外,该架构无缝集成了受人类启发式规则,以直观地打破无限重试循环。这种视觉引导的调度最大限度地减少了昂贵的VLM查询,同时显著提高了系统在分布外(OOD)场景中的鲁棒性和自主性。在具有挑战性的长时程操作基准上的综合实验表明,该方法实现了最先进的性能。

🔬 方法详解

问题定义:长时程视觉机器人操作任务需要同时具备高层语义推理能力和快速的底层控制能力。现有的Vision-Language Models (VLMs)虽然擅长认知规划,但推理延迟较高,难以满足实时性要求。而Vision-Language-Action (VLA)模型虽然速度快,但缺乏足够的语义理解能力,难以处理复杂的任务。因此,如何在长时程操作任务中平衡高层语义推理和底层快速反应是一个关键问题。

核心思路:论文的核心思路是引入一个视觉Critic,通过持续监控工作空间,动态地在VLM和VLA之间切换控制权限。当任务执行顺利时,由VLA负责快速闭环控制;当Critic检测到任务出现异常(如停滞或失败)时,则触发VLM进行重新规划。这种动态调度策略可以最大限度地减少昂贵的VLM查询,同时保证系统的鲁棒性和自主性。

技术框架:Critic in the Loop框架包含三个主要组成部分:VLM大脑、VLA小脑和视觉Critic。VLM大脑负责高层语义推理和全局规划,VLA小脑负责快速的底层控制和动作执行,视觉Critic则负责监控工作空间,判断任务执行状态,并根据状态动态地调度VLM和VLA。此外,框架还集成了人类启发式规则,用于打破无限重试循环。

关键创新:该方法最重要的创新点在于引入了视觉Critic,实现了VLM和VLA之间的动态调度。与传统的固定调度策略相比,动态调度可以根据任务的实际执行情况,灵活地调整控制策略,从而提高系统的鲁棒性和效率。此外,人类启发式规则的引入也提高了系统的智能性和适应性。

关键设计:视觉Critic的设计是关键。具体实现细节未知,但可以推测其输入为视觉信息,输出为调度信号,用于控制VLM和VLA的激活状态。Critic可能基于视觉特征提取和状态估计,判断任务是否出现异常。此外,VLM和VLA的具体模型选择和训练方式也可能影响整体性能,但论文中未详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在具有挑战性的长时程操作基准上进行了综合实验,结果表明,该方法实现了最先进的性能,显著提高了系统在分布外(OOD)场景中的鲁棒性和自主性。具体的性能数据和对比基线未知,但论文强调了其SOTA表现。

🎯 应用场景

该研究成果可应用于各种需要长时程操作的机器人任务中,例如:家庭服务机器人、工业自动化机器人、医疗辅助机器人等。通过提高机器人的自主性和鲁棒性,可以使其更好地适应复杂多变的环境,完成更加复杂的任务,从而提升生产效率和服务质量,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Balancing high-level semantic reasoning with low-level reactive control remains a core challenge in visual robotic manipulation. While Vision-Language Models (VLMs) excel at cognitive planning, their inference latency precludes real-time execution. Conversely, fast Vision-Language-Action (VLA) models often lack the semantic depth required for complex, long-horizon tasks. To bridge this gap, we introduce Critic in the Loop, an adaptive hierarchical framework driven by dynamic VLM-Expert scheduling. At its core is a bionic Tri-System architecture comprising a VLM brain for global reasoning, a VLA cerebellum for reactive execution, and a lightweight visual Critic. By continuously monitoring the workspace, the Critic dynamically routes control authority. It sustains rapid closed-loop execution via the VLA for routine subtasks, and adaptively triggers the VLM for replanning upon detecting execution anomalies such as task stagnation or failures. Furthermore, our architecture seamlessly integrates human-inspired rules to intuitively break infinite retry loops. This visually-grounded scheduling minimizes expensive VLM queries, while substantially enhancing system robustness and autonomy in out-of-distribution (OOD) scenarios. Comprehensive experiments on challenging, long-horizon manipulation benchmarks reveal that our approach achieves state-of-the-art performance.