Large Pre-Trained Models for Bimanual Manipulation in 3D
作者: Hanna Yurchyk, Wei-Di Chang, Gregory Dudek, David Meger
分类: cs.CV, cs.LG, cs.RO
发布日期: 2025-09-24
备注: Accepted to 2025 IEEE-RAS 24th International Conference on Humanoid Robots
DOI: 10.1109/Humanoids65713.2025.11203079
💡 一句话要点
利用预训练ViT注意力图增强3D双臂操作的策略学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 双臂操作 机器人学习 视觉Transformer 注意力机制 体素表示
📋 核心要点
- 现有基于体素的双臂操作策略缺乏对图像语义信息的有效利用,限制了其性能。
- 论文提出利用预训练ViT模型DINOv2的注意力图作为像素级显著性得分,并将其融入3D体素表示中。
- 实验表明,该方法在RLBench基准测试中显著提升了双臂操作策略的性能,平均绝对改进8.2%。
📝 摘要(中文)
本文研究了将预训练视觉Transformer的注意力图集成到体素表示中,以增强双臂机器人操作。具体来说,我们从自监督ViT模型DINOv2中提取注意力图,并将其解释为RGB图像上的像素级显著性得分。这些图被提升到3D体素网格中,从而产生体素级的语义线索,并将其整合到行为克隆策略中。当集成到最先进的基于体素的策略中时,我们的注意力引导特征化在RLBench双臂基准测试的所有任务中,平均绝对改进为8.2%,相对增益为21.9%。
🔬 方法详解
问题定义:论文旨在提升双臂机器人在3D环境中的操作能力。现有基于体素的策略虽然能够处理3D信息,但缺乏对图像中语义信息的有效利用,导致策略学习效率低下,难以完成复杂操作任务。
核心思路:论文的核心思路是将预训练视觉Transformer (ViT) 模型学习到的图像语义信息融入到体素表示中。具体而言,利用ViT的注意力机制提取图像中每个像素的重要性,并将这些注意力权重映射到3D体素空间,从而为体素表示赋予语义信息。这样,机器人策略可以更好地理解场景,并做出更合理的决策。
技术框架:整体框架包括以下几个主要步骤:1) 使用RGB图像作为输入;2) 利用预训练的DINOv2模型提取注意力图,该注意力图反映了图像中每个像素的显著性;3) 将2D注意力图反投影到3D体素网格中,为每个体素赋予一个语义得分;4) 将带有语义信息的体素表示输入到行为克隆策略中进行训练。
关键创新:最重要的创新点在于将预训练视觉Transformer的注意力机制与体素表示相结合。与直接使用RGB图像或深度图像作为输入相比,该方法能够更好地提取和利用图像中的语义信息,从而提升策略学习的效率和性能。此外,使用预训练模型可以避免从头开始训练视觉模型,大大降低了训练成本。
关键设计:论文使用DINOv2作为预训练的ViT模型,因为它在自监督学习方面表现出色,能够学习到丰富的图像特征。注意力图被解释为像素级的显著性得分,并通过反投影的方式映射到3D体素网格中。行为克隆策略采用标准的网络结构,损失函数为均方误差损失函数。
📊 实验亮点
实验结果表明,该方法在RLBench双臂基准测试中取得了显著的性能提升。与最先进的基于体素的策略相比,该方法在所有任务中平均绝对改进为8.2%,相对增益为21.9%。这表明利用预训练ViT注意力图能够有效增强双臂机器人的操作能力。
🎯 应用场景
该研究成果可应用于各种需要双臂机器人操作的场景,例如:工业自动化中的装配、拣选和包装;医疗领域的辅助手术和康复训练;家庭服务中的物品整理和清洁等。通过提升机器人的操作能力,可以提高生产效率、降低人工成本,并改善人们的生活质量。
📄 摘要(原文)
We investigate the integration of attention maps from a pre-trained Vision Transformer into voxel representations to enhance bimanual robotic manipulation. Specifically, we extract attention maps from DINOv2, a self-supervised ViT model, and interpret them as pixel-level saliency scores over RGB images. These maps are lifted into a 3D voxel grid, resulting in voxel-level semantic cues that are incorporated into a behavior cloning policy. When integrated into a state-of-the-art voxel-based policy, our attention-guided featurization yields an average absolute improvement of 8.2% and a relative gain of 21.9% across all tasks in the RLBench bimanual benchmark.