Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

作者: Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-03-02

💡 一句话要点

Pri4R：利用特权4D表示学习世界动力学，提升视觉-语言-动作模型的操作性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 世界动力学 特权学习 3D点轨迹 机器人操作

📋 核心要点

现有的视觉-语言-动作模型在语义理解方面表现出色，但难以捕捉物理交互的时空动态。
Pri4R利用训练时期的特权4D信息，通过预测3D点轨迹，使VLA模型隐式地学习世界动力学。
实验表明，Pri4R在模拟和真实世界的操作任务中显著提升性能，例如在LIBERO-Long上提升10%，在RoboCasa上提升40%。

📝 摘要（中文）

本文提出Pri4R，一种简单而有效的方法，通过在训练期间利用特权4D信息，使视觉-语言-动作（VLA）模型能够隐式地理解世界动力学。Pri4R通过添加一个轻量级的点跟踪头来增强VLA模型，该模块预测3D点轨迹。通过将VLA特征注入到该模块中，联合预测未来的3D轨迹，模型学会将不断演变的场景几何信息融入到共享表示空间中，从而为精确控制提供更具物理感知能力的上下文。由于其架构的简单性，Pri4R与主流的VLA设计模式兼容，只需进行最小的更改。在推理过程中，模型使用原始VLA架构运行，无需额外的输入、输出或计算开销。在模拟和真实世界的评估中，Pri4R显著提高了具有挑战性的操作任务的性能，在LIBERO-Long上获得了+10%的增益，在RoboCasa上获得了+40%的增益。进一步证明了3D点轨迹预测是学习动作-世界动力学的有效监督目标，并通过广泛的消融实验验证了设计选择。

🔬 方法详解

问题定义：现有的视觉-语言-动作（VLA）模型虽然在语义理解方面取得了显著进展，但在理解和模拟物理世界中的交互动态方面仍然存在不足。这些模型通常难以捕捉物体之间的时空关系以及动作对环境的影响，导致在复杂操作任务中表现不佳。现有方法缺乏对世界动力学的有效建模，无法充分利用场景的几何信息和时间演变信息。

核心思路：Pri4R的核心思路是利用“特权信息”，即在训练阶段引入额外的4D信息（3D点轨迹），来引导VLA模型学习世界动力学。通过预测场景中关键点的未来轨迹，模型能够更好地理解动作与环境之间的因果关系，从而提高其在操作任务中的性能。这种方法的核心在于将世界动力学建模为一个预测问题，并利用3D几何信息作为监督信号。

技术框架：Pri4R在现有的VLA模型基础上增加了一个轻量级的点跟踪头。该点跟踪头接收VLA模型的特征作为输入，并预测场景中一组关键点的未来3D轨迹。整个训练过程包括两个主要部分：VLA模型的训练和点跟踪头的训练。VLA模型负责提取视觉和语言特征，点跟踪头负责预测3D点轨迹。通过联合训练这两个模块，VLA模型能够学习到更丰富的场景表示，从而更好地理解世界动力学。在推理阶段，只需要使用原始的VLA模型，无需点跟踪头，因此不会增加额外的计算负担。

关键创新：Pri4R的关键创新在于利用特权4D信息（3D点轨迹）作为监督信号，来引导VLA模型学习世界动力学。与传统的VLA模型相比，Pri4R能够更好地捕捉场景的几何信息和时间演变信息，从而提高其在操作任务中的性能。此外，Pri4R的架构设计简单，易于集成到现有的VLA模型中，并且在推理阶段不会增加额外的计算负担。

关键设计：Pri4R的关键设计包括以下几个方面：1) 点跟踪头的网络结构：采用轻量级的网络结构，以减少计算负担。2) 损失函数：使用均方误差（MSE）损失函数来衡量预测的3D点轨迹与真实轨迹之间的差异。3) 关键点的选择：选择场景中具有代表性的关键点，例如物体的角点或中心点。4) 训练策略：采用联合训练的方式，同时训练VLA模型和点跟踪头。5) 特权信息的利用：只在训练阶段使用3D点轨迹信息，在推理阶段不使用，以保证模型的泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Pri4R在LIBERO-Long和RoboCasa等具有挑战性的操作任务上取得了显著的性能提升。具体来说，Pri4R在LIBERO-Long上获得了+10%的增益，在RoboCasa上获得了+40%的增益。这些结果表明，Pri4R能够有效地学习世界动力学，并提高VLA模型在操作任务中的性能。消融实验进一步验证了3D点轨迹预测是学习动作-世界动力学的有效监督目标。

🎯 应用场景

Pri4R具有广泛的应用前景，例如机器人操作、自动驾驶、虚拟现实等领域。它可以用于提高机器人在复杂环境中的操作能力，例如抓取、放置、组装等任务。在自动驾驶领域，Pri4R可以帮助车辆更好地理解周围环境，从而提高驾驶安全性。在虚拟现实领域，Pri4R可以用于创建更逼真的交互体验，例如模拟物理交互、物体操作等。

📄 摘要（原文）

Humans learn not only how their bodies move, but also how the surrounding world responds to their actions. In contrast, while recent Vision-Language-Action (VLA) models exhibit impressive semantic understanding, they often fail to capture the spatiotemporal dynamics governing physical interaction. In this paper, we introduce Pri4R, a simple yet effective approach that endows VLA models with an implicit understanding of world dynamics by leveraging privileged 4D information during training. Specifically, Pri4R augments VLAs with a lightweight point track head that predicts 3D point tracks. By injecting VLA features into this head to jointly predict future 3D trajectories, the model learns to incorporate evolving scene geometry within its shared representation space, enabling more physically aware context for precise control. Due to its architectural simplicity, Pri4R is compatible with dominant VLA design patterns with minimal changes. During inference, we run the model using the original VLA architecture unchanged; Pri4R adds no extra inputs, outputs, or computational overhead. Across simulation and real-world evaluations, Pri4R significantly improves performance on challenging manipulation tasks, including a +10% gain on LIBERO-Long and a +40% gain on RoboCasa. We further show that 3D point track prediction is an effective supervision target for learning action-world dynamics, and validate our design choices through extensive ablations.

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理