PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

作者: Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-09-22

备注: 11 pages

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

PEEK：利用引导式极简图像表征实现机器人操作策略的零样本泛化

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 零样本泛化 视觉-语言模型 关键点检测 策略学习

📋 核心要点

现有机器人操作策略泛化性差，需同时学习关注位置、采取行动及执行方式，负担过重。
PEEK利用视觉-语言模型（VLM）处理高级推理，生成策略无关的关键点和动作路径，简化策略学习。
实验表明，PEEK显著提升零样本泛化能力，在真实世界任务中取得41.4倍的性能提升。

📝 摘要（中文）

机器人操作策略常常无法泛化，因为它们必须同时学习在哪里关注、采取什么行动以及如何执行这些行动。本文提出，关于“在哪里”和“什么”的高级推理可以卸载到视觉-语言模型（VLM）中，使策略专注于“如何”行动。本文提出了PEEK（策略无关的必要关键点提取），它微调VLM以预测统一的基于点的中间表示：1. 指定采取什么行动的末端执行器路径，2. 指示关注位置的任务相关掩码。这些注释直接叠加到机器人观测上，使表示具有策略无关性，并可在不同架构之间转移。为了实现可扩展的训练，本文引入了一个自动注释流水线，生成跨越9个机器人实体、20多个机器人数据集的标记数据。在真实世界的评估中，PEEK始终提高零样本泛化能力，包括仅在模拟中训练的3D策略的41.4倍真实世界改进，以及大型VLA和小型操作策略的2-3.5倍增益。通过让VLM吸收语义和视觉复杂性，PEEK为操作策略配备了它们所需的最小提示——在哪里、什么和如何。

🔬 方法详解

问题定义：机器人操作策略的泛化能力不足，主要原因是策略需要同时学习视觉感知、动作规划和运动控制。现有的方法通常将这些任务耦合在一起，导致策略难以适应新的环境和任务。尤其是在零样本泛化场景下，策略需要在未见过的环境中执行任务，这进一步加剧了泛化问题。

核心思路：PEEK的核心思路是将视觉感知和高级推理的任务卸载到预训练的视觉-语言模型（VLM）中，从而减轻操作策略的学习负担。通过VLM提取任务相关的关键点和动作路径，并将这些信息作为策略的输入，策略只需要专注于学习如何执行动作，而无需再学习视觉感知和高级推理。这种解耦的设计可以提高策略的泛化能力。

技术框架：PEEK的整体框架包括三个主要模块：1) 视觉-语言模型（VLM）：用于提取任务相关的关键点和动作路径。2) 自动标注流水线：用于生成大规模的训练数据，包括关键点和动作路径的标注。3) 操作策略：用于根据VLM提取的信息执行动作。整个流程是，首先使用自动标注流水线生成训练数据，然后微调VLM以预测关键点和动作路径，最后将VLM的输出作为操作策略的输入，训练策略执行任务。

关键创新：PEEK最重要的技术创新点在于其策略无关的中间表示。通过将VLM的输出表示为关键点和动作路径，PEEK实现了视觉感知和操作策略的解耦。这种解耦的设计使得PEEK可以很容易地与其他操作策略相结合，并且可以提高策略的泛化能力。与现有方法相比，PEEK不需要从头开始学习视觉感知，而是利用预训练的VLM来提取任务相关的信息。

关键设计：PEEK的关键设计包括：1) 使用预训练的视觉-语言模型（VLM）作为视觉感知模块。2) 设计自动标注流水线，用于生成大规模的训练数据。3) 将VLM的输出表示为关键点和动作路径，作为操作策略的输入。4) 使用统一的损失函数来训练VLM，包括关键点预测损失和动作路径预测损失。具体的网络结构和参数设置在论文中有详细描述，但未在此处明确给出。

📊 实验亮点

PEEK在真实世界的机器人操作任务中取得了显著的性能提升。例如，对于一个仅在模拟环境中训练的3D策略，PEEK使其在真实世界中的性能提高了41.4倍。此外，PEEK还使大型视觉-语言模型（VLA）和小型操作策略的性能提高了2-3.5倍。这些实验结果表明，PEEK可以有效地提高机器人操作策略的零样本泛化能力。

🎯 应用场景

PEEK具有广泛的应用前景，可用于各种机器人操作任务，如物体抓取、装配、导航等。该方法尤其适用于需要在复杂环境中执行任务的机器人，例如家庭服务机器人、工业机器人等。通过利用视觉-语言模型，PEEK可以使机器人更好地理解人类指令，并执行复杂的任务。未来，PEEK有望成为机器人操作领域的重要技术。

📄 摘要（原文）

Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册