EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

📄 arXiv: 2603.05757v1 📥 PDF

作者: Gehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu

分类: cs.RO

发布日期: 2026-03-05


💡 一句话要点

EmboAlign:通过组合约束对齐视频生成,实现零样本操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion)

关键词: 机器人操作 视频生成模型 视觉-语言模型 组合约束 零样本学习

📋 核心要点

  1. 视频生成模型在机器人操作中面临物理合理性挑战,几何重定向引入累积误差。
  2. EmboAlign利用视觉-语言模型提取组合约束,引导视频生成模型的输出对齐。
  3. 实验表明,EmboAlign在真实机器人操作任务中显著提升成功率,无需额外训练。

📝 摘要(中文)

本文提出EmboAlign,一个数据无关的框架,旨在推理时将视频生成模型(VGMs)的输出与视觉-语言模型(VLMs)生成的组合约束对齐,从而实现零样本机器人操作。核心思想是利用VLMs在结构化空间推理方面的能力,识别对操作成功和安全至关重要的物理约束,这与VGMs形成互补。给定语言指令,EmboAlign使用VLM自动提取一组捕捉任务特定需求的组合约束,并在两个阶段应用:(1) 约束引导的rollout选择,对一批VGM rollouts进行评分和过滤,保留物理上最合理的候选者;(2) 基于约束的轨迹优化,使用选定的rollout作为初始化,并在相同的约束集下优化机器人轨迹,以纠正重定向误差。在六个需要精确、约束敏感执行的真实机器人操作任务上评估EmboAlign,与最强的基线相比,整体成功率提高了43.3个百分点,且无需任何任务特定的训练数据。

🔬 方法详解

问题定义:现有视频生成模型(VGMs)在生成用于机器人操作的视频时,经常产生物理上不合理的rollout。此外,将像素空间运动转换为机器人动作的几何重定向过程,由于深度估计和关键点跟踪的不完善,会引入累积误差。因此,需要一种方法来确保生成的视频在物理上合理,并且能够准确地转化为可执行的机器人动作。

核心思路:EmboAlign的核心思路是利用视觉-语言模型(VLMs)在结构化空间推理方面的能力,提取任务相关的组合约束。这些约束可以用来过滤掉不合理的VGM rollout,并指导机器人轨迹的优化,从而提高操作的成功率和安全性。这种方法的核心在于利用VLMs和VGMs的互补优势,VLMs提供结构化推理,VGMs提供时间连贯的视频生成。

技术框架:EmboAlign框架包含两个主要阶段:(1) 约束引导的rollout选择:首先,给定语言指令,VLM提取一组组合约束。然后,VGM生成一批rollout,并根据这些约束进行评分和过滤,选择最符合物理约束的rollout。(2) 基于约束的轨迹优化:将选定的rollout作为初始轨迹,并在相同的约束集下进行优化,以纠正重定向误差,生成最终的机器人轨迹。

关键创新:EmboAlign的关键创新在于利用VLMs自动提取组合约束,并将其应用于VGM rollout的选择和机器人轨迹的优化。这种方法无需任何任务特定的训练数据,即可显著提高机器人操作的成功率。与现有方法相比,EmboAlign更加灵活和通用,可以应用于各种不同的机器人操作任务。

关键设计:EmboAlign的关键设计包括:(1) VLM的选择和约束提取方法:选择合适的VLM,并设计有效的提示工程,以提取与任务相关的组合约束。(2) rollout评分函数的设计:设计一个能够准确评估VGM rollout物理合理性的评分函数,该函数基于提取的组合约束。(3) 轨迹优化算法的选择:选择合适的轨迹优化算法,以在约束条件下优化机器人轨迹,并纠正重定向误差。具体的参数设置、损失函数和网络结构等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EmboAlign在六个真实机器人操作任务上进行了评估,与最强的基线相比,整体成功率提高了43.3个百分点。这一结果表明,EmboAlign能够有效地利用组合约束来提高机器人操作的性能,并且具有良好的泛化能力,无需针对特定任务进行训练。

🎯 应用场景

EmboAlign具有广泛的应用前景,可用于各种需要精确和约束敏感执行的机器人操作任务,例如装配、抓取、放置等。该方法无需任务特定训练数据,降低了机器人部署的成本和难度。未来,EmboAlign可以与其他机器人学习方法相结合,进一步提高机器人的自主性和适应性。

📄 摘要(原文)

Video generative models (VGMs) pretrained on large-scale internet data can produce temporally coherent rollout videos that capture rich object dynamics, offering a compelling foundation for zero-shot robotic manipulation. However, VGMs often produce physically implausible rollouts, and converting their pixel-space motion into robot actions through geometric retargeting further introduces cumulative errors from imperfect depth estimation and keypoint tracking. To address these challenges, we present \method{}, a data-free framework that aligns VGM outputs with compositional constraints generated by vision-language models (VLMs) at inference time. The key insight is that VLMs offer a capability complementary to VGMs: structured spatial reasoning that can identify the physical constraints critical to the success and safety of manipulation execution. Given a language instruction, \method{} uses a VLM to automatically extract a set of compositional constraints capturing task-specific requirements, which are then applied at two stages: (1) constraint-guided rollout selection, which scores and filters a batch of VGM rollouts to retain the most physically plausible candidate, and (2) constraint-based trajectory optimization, which uses the selected rollout as initialization and refines the robot trajectory under the same constraint set to correct retargeting errors. We evaluate \method{} on six real-robot manipulation tasks requiring precise, constraint-sensitive execution, improving the overall success rate by 43.3\% points over the strongest baseline without any task-specific training data.