VGGT-DP: Generalizable Robot Control via Vision Foundation Models
作者: Shijia Ge, Yinxin Zhang, Shuzhao Xie, Weixiang Zhang, Mingcai Zhou, Zhi Wang
分类: cs.RO, cs.AI
发布日期: 2025-09-23
备注: submitted to AAAI 2026
💡 一句话要点
提出VGGT-DP,利用视觉基础模型提升机器人操作技能的泛化性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人控制 视觉模仿学习 视觉基础模型 3D感知 几何先验
📋 核心要点
- 现有视觉模仿学习方法忽略视觉编码器的结构和能力,导致空间理解和泛化能力受限。
- VGGT-DP结合预训练3D感知模型的几何先验和本体感受反馈,提升空间定位和闭环控制。
- 通过令牌重用和剪枝,降低推理延迟,增强策略鲁棒性,并在MetaWorld任务上显著优于现有基线。
📝 摘要(中文)
本文提出了一种名为VGGT-DP的视觉运动策略框架,旨在提升机器人操作技能的泛化能力。现有方法主要关注策略设计,忽略了视觉编码器的结构和能力,限制了空间理解和泛化。受生物视觉系统的启发,VGGT-DP结合了预训练3D感知模型提供的几何先验知识和本体感受反馈,以实现鲁棒控制。该框架采用Visual Geometry Grounded Transformer (VGGT) 作为视觉编码器,并引入了一种本体感受引导的视觉学习策略,将感知与内部机器人状态对齐,从而改善空间定位和闭环控制。为了降低推理延迟,设计了一种逐帧令牌重用机制,将多视图令牌压缩成高效的空间表示。此外,应用随机令牌剪枝来增强策略的鲁棒性并减少过拟合。在具有挑战性的MetaWorld任务上的实验表明,VGGT-DP显著优于DP和DP3等强大的基线,尤其是在精度要求高和长时程场景中。
🔬 方法详解
问题定义:现有视觉模仿学习方法在机器人操作技能学习中,主要关注策略设计,但忽略了视觉编码器的结构和能力,导致机器人对环境的空间理解不足,泛化能力较差。尤其是在精度要求高和长时程任务中,性能瓶颈更加明显。
核心思路:受生物视觉系统同时依赖视觉和本体感受信息的启发,论文的核心思路是将预训练的3D感知模型提供的几何先验知识与机器人的本体感受反馈相结合,从而增强机器人对环境的理解和定位能力,提升控制策略的泛化性和鲁棒性。
技术框架:VGGT-DP框架主要包含以下几个模块:1) Visual Geometry Grounded Transformer (VGGT) 作为视觉编码器,用于提取图像特征和几何信息;2) 本体感受引导的视觉学习策略,用于将视觉感知与机器人的内部状态对齐;3) 逐帧令牌重用机制,用于降低推理延迟;4) 随机令牌剪枝,用于增强策略的鲁棒性。整体流程是从多视角图像中提取视觉特征,结合本体感受信息,通过策略网络输出控制指令。
关键创新:论文的关键创新在于将预训练的3D感知模型VGGT与本体感受反馈相结合,用于机器人控制。这种结合方式能够有效提升机器人对环境的理解和定位能力,从而提高控制策略的泛化性和鲁棒性。此外,逐帧令牌重用和随机令牌剪枝也是重要的创新点,能够降低推理延迟并增强策略的鲁棒性。与现有方法相比,VGGT-DP更加注重利用视觉基础模型提供的先验知识,而非仅仅依赖策略设计。
关键设计:VGGT作为视觉编码器,负责提取图像特征和几何信息。本体感受引导的视觉学习策略通过特定的损失函数来对齐视觉感知和机器人内部状态。逐帧令牌重用机制通过压缩多视图令牌来降低计算复杂度。随机令牌剪枝通过随机移除部分令牌来增强策略的鲁棒性,防止过拟合。具体的参数设置和损失函数细节在论文中有详细描述(未知)。
📊 实验亮点
实验结果表明,VGGT-DP在MetaWorld任务上显著优于DP和DP3等基线方法。尤其是在精度要求高和长时程场景中,VGGT-DP的性能提升更为明显。具体的数据指标(例如成功率、平均奖励等)在论文中有详细展示(未知)。这些结果验证了VGGT-DP在提升机器人操作技能泛化性方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要高精度和长时程操作的机器人任务,例如工业自动化、医疗手术、家庭服务等。通过提升机器人的空间理解和泛化能力,可以使其更好地适应复杂和动态的环境,从而提高工作效率和安全性。未来,该方法有望扩展到更多类型的机器人和更复杂的任务中。
📄 摘要(原文)
Visual imitation learning frameworks allow robots to learn manipulation skills from expert demonstrations. While existing approaches mainly focus on policy design, they often neglect the structure and capacity of visual encoders, limiting spatial understanding and generalization. Inspired by biological vision systems, which rely on both visual and proprioceptive cues for robust control, we propose VGGT-DP, a visuomotor policy framework that integrates geometric priors from a pretrained 3D perception model with proprioceptive feedback. We adopt the Visual Geometry Grounded Transformer (VGGT) as the visual encoder and introduce a proprioception-guided visual learning strategy to align perception with internal robot states, improving spatial grounding and closed-loop control. To reduce inference latency, we design a frame-wise token reuse mechanism that compacts multi-view tokens into an efficient spatial representation. We further apply random token pruning to enhance policy robustness and reduce overfitting. Experiments on challenging MetaWorld tasks show that VGGT-DP significantly outperforms strong baselines such as DP and DP3, particularly in precision-critical and long-horizon scenarios.