PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

📄 arXiv: 2509.18282v1 📥 PDF

作者: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-09-22

备注: 11 pages

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

PEEK:利用引导式极简图像表征实现机器人操作策略的零样本泛化

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 零样本泛化 视觉-语言模型 关键点检测 策略学习

📋 核心要点

  1. 现有机器人操作策略泛化性差,需同时学习关注位置、采取行动及执行方式,负担过重。
  2. PEEK利用视觉-语言模型(VLM)处理高级推理,生成策略无关的关键点和动作路径,简化策略学习。
  3. 实验表明,PEEK显著提升零样本泛化能力,在真实世界任务中取得41.4倍的性能提升。

📝 摘要(中文)

机器人操作策略常常无法泛化,因为它们必须同时学习在哪里关注、采取什么行动以及如何执行这些行动。本文提出,关于“在哪里”和“什么”的高级推理可以卸载到视觉-语言模型(VLM)中,使策略专注于“如何”行动。本文提出了PEEK(策略无关的必要关键点提取),它微调VLM以预测统一的基于点的中间表示:1. 指定采取什么行动的末端执行器路径,2. 指示关注位置的任务相关掩码。这些注释直接叠加到机器人观测上,使表示具有策略无关性,并可在不同架构之间转移。为了实现可扩展的训练,本文引入了一个自动注释流水线,生成跨越9个机器人实体、20多个机器人数据集的标记数据。在真实世界的评估中,PEEK始终提高零样本泛化能力,包括仅在模拟中训练的3D策略的41.4倍真实世界改进,以及大型VLA和小型操作策略的2-3.5倍增益。通过让VLM吸收语义和视觉复杂性,PEEK为操作策略配备了它们所需的最小提示——在哪里、什么和如何。

🔬 方法详解

问题定义:机器人操作策略的泛化能力不足,主要原因是策略需要同时学习视觉感知、动作规划和运动控制。现有的方法通常将这些任务耦合在一起,导致策略难以适应新的环境和任务。尤其是在零样本泛化场景下,策略需要在未见过的环境中执行任务,这进一步加剧了泛化问题。

核心思路:PEEK的核心思路是将视觉感知和高级推理的任务卸载到预训练的视觉-语言模型(VLM)中,从而减轻操作策略的学习负担。通过VLM提取任务相关的关键点和动作路径,并将这些信息作为策略的输入,策略只需要专注于学习如何执行动作,而无需再学习视觉感知和高级推理。这种解耦的设计可以提高策略的泛化能力。

技术框架:PEEK的整体框架包括三个主要模块:1) 视觉-语言模型(VLM):用于提取任务相关的关键点和动作路径。2) 自动标注流水线:用于生成大规模的训练数据,包括关键点和动作路径的标注。3) 操作策略:用于根据VLM提取的信息执行动作。整个流程是,首先使用自动标注流水线生成训练数据,然后微调VLM以预测关键点和动作路径,最后将VLM的输出作为操作策略的输入,训练策略执行任务。

关键创新:PEEK最重要的技术创新点在于其策略无关的中间表示。通过将VLM的输出表示为关键点和动作路径,PEEK实现了视觉感知和操作策略的解耦。这种解耦的设计使得PEEK可以很容易地与其他操作策略相结合,并且可以提高策略的泛化能力。与现有方法相比,PEEK不需要从头开始学习视觉感知,而是利用预训练的VLM来提取任务相关的信息。

关键设计:PEEK的关键设计包括:1) 使用预训练的视觉-语言模型(VLM)作为视觉感知模块。2) 设计自动标注流水线,用于生成大规模的训练数据。3) 将VLM的输出表示为关键点和动作路径,作为操作策略的输入。4) 使用统一的损失函数来训练VLM,包括关键点预测损失和动作路径预测损失。具体的网络结构和参数设置在论文中有详细描述,但未在此处明确给出。

📊 实验亮点

PEEK在真实世界的机器人操作任务中取得了显著的性能提升。例如,对于一个仅在模拟环境中训练的3D策略,PEEK使其在真实世界中的性能提高了41.4倍。此外,PEEK还使大型视觉-语言模型(VLA)和小型操作策略的性能提高了2-3.5倍。这些实验结果表明,PEEK可以有效地提高机器人操作策略的零样本泛化能力。

🎯 应用场景

PEEK具有广泛的应用前景,可用于各种机器人操作任务,如物体抓取、装配、导航等。该方法尤其适用于需要在复杂环境中执行任务的机器人,例如家庭服务机器人、工业机器人等。通过利用视觉-语言模型,PEEK可以使机器人更好地理解人类指令,并执行复杂的任务。未来,PEEK有望成为机器人操作领域的重要技术。

📄 摘要(原文)

Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.