Do You Need Proprioceptive States in Visuomotor Policies?

📄 arXiv: 2509.18644v2 📥 PDF

作者: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao

分类: cs.RO, cs.AI

发布日期: 2025-09-23 (更新: 2025-09-24)

备注: Project page: https://statefreepolicy.github.io


💡 一句话要点

提出State-free策略,解决基于模仿学习的机器人操作中对本体感受状态的过度依赖问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 机器人操作 模仿学习 视觉伺服 空间泛化 深度学习

📋 核心要点

  1. 传统模仿学习机器人策略过度依赖本体感受状态,导致空间泛化能力差,易过拟合。
  2. 提出State-free策略,仅依赖视觉信息预测动作,避免对本体感受状态的依赖。
  3. 实验表明,State-free策略在真实机器人任务中显著提升空间泛化能力和数据效率。

📝 摘要(中文)

基于模仿学习的视觉运动策略已广泛应用于机器人操作中,通常视觉观测和本体感受状态被共同用于精确控制。然而,本研究发现,这种常见做法使得策略过度依赖于本体感受状态输入,导致对训练轨迹的过拟合,并导致较差的空间泛化能力。相反,我们提出了State-free策略,移除了本体感受状态输入,仅根据视觉观测预测动作。State-free策略构建在相对末端执行器动作空间中,并应确保所有任务相关的视觉观测,这里由双广角腕部相机提供。实验结果表明,State-free策略实现了比基于状态的策略显著更强的空间泛化能力:在现实世界的任务中,如抓取放置、具有挑战性的衬衫折叠和复杂的全身操作,跨越多个机器人实体,平均成功率在高度泛化方面从0%提高到85%,在水平泛化方面从6%提高到64%。此外,它们还显示出在数据效率和跨实体适应方面的优势,增强了它们在现实世界部署中的实用性。

🔬 方法详解

问题定义:现有基于模仿学习的机器人操作策略通常同时使用视觉观测和本体感受状态进行控制。然而,这种做法导致策略过度依赖本体感受状态,使得模型容易过拟合训练数据,在新的空间位置泛化能力较差。尤其是在真实机器人任务中,本体感受器的噪声和校准误差会进一步降低策略的性能。

核心思路:论文的核心思路是移除本体感受状态的输入,仅使用视觉信息来预测机器人的动作。作者认为,如果视觉信息足够丰富,并且策略能够学习到视觉信息和动作之间的正确映射关系,就可以实现良好的控制效果和泛化能力。这种方法可以避免模型对本体感受状态的过度依赖,从而提高模型的鲁棒性和泛化能力。

技术框架:State-free策略的整体框架包括以下几个主要部分:1) 双广角腕部相机提供丰富的视觉观测;2) 使用卷积神经网络(CNN)提取视觉特征;3) 使用循环神经网络(RNN)处理时序视觉特征;4) 使用全连接层预测相对末端执行器动作。整个框架采用端到端的方式进行训练,直接从视觉输入到动作输出。

关键创新:最重要的技术创新点在于完全移除了本体感受状态的输入,仅依赖视觉信息进行控制。这与传统的模仿学习方法形成了鲜明对比,传统方法通常需要同时使用视觉和本体感受信息。State-free策略的设计理念是,如果视觉信息足够充分,就可以学习到有效的控制策略,而无需依赖本体感受状态。

关键设计:State-free策略的关键设计包括:1) 使用双广角腕部相机提供全面的视觉观测,确保策略能够获取所有任务相关的视觉信息;2) 在相对末端执行器动作空间中进行动作预测,避免绝对坐标带来的误差;3) 使用数据增强技术,例如随机裁剪、旋转和缩放,来提高模型的鲁棒性和泛化能力;4) 使用行为克隆(Behavior Cloning)算法进行训练,最小化预测动作和专家动作之间的差异。

📊 实验亮点

实验结果表明,State-free策略在真实机器人任务中取得了显著的性能提升。在高度泛化方面,成功率从0%提高到85%;在水平泛化方面,成功率从6%提高到64%。此外,State-free策略还表现出更好的数据效率和跨实体适应能力,这意味着它可以使用更少的数据训练出更好的模型,并且可以更容易地迁移到不同的机器人平台上。

🎯 应用场景

该研究成果可广泛应用于各种机器人操作任务,尤其是在需要高精度和强泛化能力的场景中,例如工业自动化、家庭服务机器人、医疗机器人等。通过减少对本体感受器的依赖,可以降低机器人系统的成本和复杂性,提高其可靠性和易用性,加速机器人在现实世界中的部署。

📄 摘要(原文)

Imitation-learning-based visuomotor policies have been widely used in robot manipulation, where both visual observations and proprioceptive states are typically adopted together for precise control. However, in this study, we find that this common practice makes the policy overly reliant on the proprioceptive state input, which causes overfitting to the training trajectories and results in poor spatial generalization. On the contrary, we propose the State-free Policy, removing the proprioceptive state input and predicting actions only conditioned on visual observations. The State-free Policy is built in the relative end-effector action space, and should ensure the full task-relevant visual observations, here provided by dual wide-angle wrist cameras. Empirical results demonstrate that the State-free policy achieves significantly stronger spatial generalization than the state-based policy: in real-world tasks such as pick-and-place, challenging shirt-folding, and complex whole-body manipulation, spanning multiple robot embodiments, the average success rate improves from 0% to 85% in height generalization and from 6% to 64% in horizontal generalization. Furthermore, they also show advantages in data efficiency and cross-embodiment adaptation, enhancing their practicality for real-world deployment. Discover more by visiting: https://statefreepolicy.github.io.