Contrastive Representation Regularization for Vision-Language-Action Models

作者: Taeyoung Kim, Jimin Lee, Myungkyu Koo, Dongyoung Kim, Kyungmin Lee, Changyeon Kim, Younggyo Seo, Jinwoo Shin

分类: cs.RO, cs.LG

发布日期: 2025-10-02 (更新: 2025-10-13)

备注: 20 pages, 12 figures

💡 一句话要点

提出机器人状态感知对比损失，提升视觉-语言-动作模型在机器人操作中的性能。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人操作 对比学习 表征学习 本体感受 机器人状态感知 VLA模型 RS-CL

📋 核心要点

现有VLA模型在机器人操作中，对控制动作和本体感受等机器人信号的敏感性不足，导致表征欠优化。
提出机器人状态感知对比损失(RS-CL)，利用机器人本体感受状态的相对距离作为软监督，对VLA模型进行表征正则化。
实验表明，RS-CL显著提升了VLA模型在模拟和真实机器人操作任务中的性能，例如在抓取放置任务中成功率提升明显。

📝 摘要（中文）

视觉-语言-动作(VLA)模型通过利用预训练视觉-语言模型(VLM)的丰富表征，在机器人操作方面展现了能力。然而，它们的表征可能仍然欠优化，缺乏对控制动作和本体感受状态等机器人信号的敏感性。为了解决这个问题，我们引入了机器人状态感知对比损失(RS-CL)，这是一种简单有效的VLA模型表征正则化方法，旨在弥合VLM表征和机器人信号之间的差距。特别地，RS-CL通过使用状态之间的相对距离作为软监督，使表征更紧密地与机器人的本体感受状态对齐。作为原始动作预测目标的补充，RS-CL有效地增强了控制相关的表征学习，同时保持轻量级并与标准VLA训练流程完全兼容。我们的实验结果表明，RS-CL显著提高了最先进VLA模型的操作性能；在RoboCasa-Kitchen的抓取和放置任务中，通过更精确的抓取和放置定位，将现有技术水平从30.8%提高到41.5%，并在具有挑战性的真实机器人操作任务中，将成功率从45.0%提高到58.3%。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)模型虽然利用了预训练视觉-语言模型(VLM)的强大表征能力，但在机器人操作任务中，其表征对机器人自身状态（如关节角度、末端执行器位置等本体感受信息）和控制动作的敏感性不足。这导致模型难以准确理解和执行复杂的机器人操作任务，尤其是在需要精细控制的场景下。现有方法通常侧重于动作预测，忽略了对机器人状态表征的优化。

核心思路：论文的核心思路是通过对比学习，将VLA模型的表征空间与机器人的本体感受状态空间对齐。具体来说，利用机器人状态之间的相对距离作为软监督信号，鼓励模型学习到的表征能够反映机器人状态的相似性和差异性。这样设计的目的是使模型能够更好地理解机器人自身的状态，从而提高控制精度和操作成功率。

技术框架：该方法在标准的VLA训练流程中增加了一个额外的对比学习模块。整体框架包括：1) 视觉和语言输入经过VLM编码器得到视觉-语言表征；2) 该表征与机器人本体感受状态一起输入到VLA模型中；3) VLA模型输出动作预测；4) 同时，利用RS-CL损失函数，将VLA模型的表征与机器人本体感受状态进行对比学习，优化表征空间。

关键创新：最重要的技术创新点是提出了机器人状态感知对比损失(RS-CL)。与传统的对比学习方法不同，RS-CL不是直接对比视觉-语言表征，而是将其与机器人本体感受状态进行对比。这种方法能够更有效地将VLM的通用表征与机器人控制任务所需的特定信息对齐。此外，RS-CL使用状态之间的相对距离作为软监督，而不是简单的正负样本对，这使得学习过程更加稳定和有效。

关键设计：RS-CL损失函数的关键在于如何定义正负样本对以及如何计算对比损失。论文中使用机器人本体感受状态之间的欧氏距离来定义样本之间的相似度。距离较近的状态被认为是正样本，距离较远的状态被认为是负样本。对比损失函数采用InfoNCE损失，鼓励模型将相似状态的表征拉近，将不相似状态的表征推远。具体的温度参数τ控制对比学习的强度。此外，RS-CL与原始的动作预测损失函数联合优化，以保证模型在学习控制相关表征的同时，仍然能够准确预测动作。

📊 实验亮点

实验结果表明，RS-CL能够显著提升VLA模型在机器人操作任务中的性能。在RoboCasa-Kitchen的抓取和放置任务中，成功率从30.8%提升到41.5%。在真实机器人操作任务中，成功率从45.0%提升到58.3%。这些结果表明，RS-CL能够有效地增强控制相关的表征学习，提高机器人的操作精度和鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要精细操作的机器人任务，例如：家庭服务机器人、工业自动化、医疗手术机器人等。通过提升机器人对自身状态的感知能力，可以提高操作的准确性和鲁棒性，从而实现更复杂、更安全的机器人应用。未来，该方法可以扩展到其他类型的机器人状态信息，例如力/力矩传感器数据，以进一步提高机器人的操作性能。

📄 摘要（原文）

Vision-Language-Action (VLA) models have shown its capabilities in robot manipulation by leveraging rich representations from pre-trained Vision-Language Models (VLMs). However, their representations arguably remain suboptimal, lacking sensitivity to robotic signals such as control actions and proprioceptive states. To address the issue, we introduce Robot State-aware Contrastive Loss (RS-CL), a simple and effective representation regularization for VLA models, designed to bridge the gap between VLM representations and robotic signals. In particular, RS-CL aligns the representations more closely with the robot's proprioceptive states, by using relative distances between the states as soft supervision. Complementing the original action prediction objective, RS-CL effectively enhances control-relevant representation learning, while being lightweight and fully compatible with standard VLA training pipeline. Our empirical results demonstrate that RS-CL substantially improves the manipulation performance of state-of-the-art VLA models; it pushes the prior art from 30.8% to 41.5% on pick-and-place tasks in RoboCasa-Kitchen, through more accurate positioning during grasping and placing, and boosts success rates from 45.0% to 58.3% on challenging real-robot manipulation tasks.

Contrastive Representation Regularization for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册