Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

作者: Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li

分类: cs.RO, cs.AI

发布日期: 2025-09-02 (更新: 2025-09-05)

备注: The first three authors contributed equally

💡 一句话要点

Align-Then-stEer框架通过统一潜在空间指导，实现VLA模型在机器人任务上的高效迁移。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人操作 迁移学习 变分自编码器 扩散模型 动作空间对齐 潜在空间 模型引导

📋 核心要点

现有VLA模型在适应新机器人形态或任务时，面临动作分布不匹配的挑战，需要大量数据和计算资源进行微调。
ATE框架通过构建统一的潜在空间对齐动作空间，并利用引导机制在微调过程中将模型输出分布推向目标域。
实验表明，ATE在模拟和真实环境中均显著提升了VLA模型在跨形态和跨任务操作中的成功率。

📝 摘要（中文）

本文提出了一种名为Align-Then-stEer（ATE）的全新、数据高效且即插即用的自适应框架，旨在解决视觉-语言-动作（VLA）模型在下游任务中的适应性问题，尤其是在机器人形态或任务与预训练数据存在差异时。ATE通过构建统一的潜在空间来对齐不同的动作空间，其中变分自编码器（VAE）受到反向KL散度的约束，将自适应动作嵌入到预训练动作潜在分布的模式中。随后，通过引导机制在微调期间控制基于扩散或流的VLA生成过程，将模型的输出分布推向目标域。在模拟和真实世界的跨形态和跨任务操作中进行了大量实验。与直接微调VLA模型相比，该方法在模拟中将平均多任务成功率提高了高达9.8％，并在真实世界的跨形态设置中实现了惊人的32％的成功率提升。该工作提出了一种通用且轻量级的解决方案，大大提高了将VLA模型部署到新的机器人平台和任务的实用性。

🔬 方法详解

问题定义：VLA模型在预训练数据与实际机器人任务存在差异时，动作空间不匹配，导致模型泛化能力下降，需要大量数据进行微调才能适应新的机器人形态或任务。现有方法通常采用直接微调，效率低下，且容易过拟合。

核心思路：论文的核心思路是解耦对齐（Align）和引导（Steer）两个过程。首先，通过统一的潜在空间对齐不同机器人形态或任务的动作空间，将它们映射到预训练动作的潜在分布中。然后，在微调过程中，利用引导机制，将模型的输出分布推向目标域，从而实现高效的迁移学习。

技术框架：ATE框架包含两个主要阶段：对齐阶段和引导阶段。在对齐阶段，使用变分自编码器（VAE）学习一个统一的潜在空间，将不同动作空间映射到该空间中。VAE的训练目标是最小化重构误差和反向KL散度，确保潜在空间能够捕捉到预训练动作的分布。在引导阶段，利用扩散模型或流模型生成动作，并使用引导机制将生成过程推向目标域。引导机制通过计算目标域的梯度，并将其添加到生成过程的噪声中，从而影响生成结果。

关键创新：ATE的关键创新在于将动作空间对齐和模型引导解耦，并使用统一的潜在空间作为桥梁。这种方法避免了直接微调带来的数据依赖性问题，提高了模型的泛化能力。此外，使用反向KL散度约束VAE的潜在空间，确保其能够捕捉到预训练动作的分布，从而提高了对齐的准确性。

关键设计：在对齐阶段，VAE的编码器和解码器采用多层感知机（MLP）结构。反向KL散度的权重是一个超参数，需要根据具体任务进行调整。在引导阶段，可以使用不同的扩散模型或流模型。引导强度也是一个超参数，需要根据具体任务进行调整。论文中使用了DDPM作为扩散模型，并使用Classifier-Free Guidance进行引导。

📊 实验亮点

实验结果表明，ATE框架在模拟和真实环境中均取得了显著的性能提升。在模拟环境中，ATE将平均多任务成功率提高了高达9.8％。在真实世界的跨形态设置中，ATE实现了惊人的32％的成功率提升。这些结果表明，ATE是一种有效且通用的VLA模型自适应方法。

🎯 应用场景

该研究成果可广泛应用于机器人操作领域，例如工业自动化、家庭服务机器人、医疗机器人等。通过ATE框架，可以快速将VLA模型部署到新的机器人平台和任务中，降低开发成本，提高机器人智能化水平。该方法还有潜力应用于其他视觉-语言任务，例如图像生成、文本编辑等。

📄 摘要（原文）

Vision-Language-Action (VLA) models pre-trained on large, diverse datasets show remarkable potential for general-purpose robotic manipulation. However, a primary bottleneck remains in adapting these models to downstream tasks, especially when the robot's embodiment or the task itself differs from the pre-training data. This discrepancy leads to a significant mismatch in action distributions, demanding extensive data and compute for effective fine-tuning. To address this challenge, we introduce \textbf{Align-Then-stEer (\texttt{ATE})}, a novel, data-efficient, and plug-and-play adaptation framework. \texttt{ATE} first aligns disparate action spaces by constructing a unified latent space, where a variational autoencoder constrained by reverse KL divergence embeds adaptation actions into modes of the pre-training action latent distribution. Subsequently, it steers the diffusion- or flow-based VLA's generation process during fine-tuning via a guidance mechanism that pushes the model's output distribution towards the target domain. We conduct extensive experiments on cross-embodiment and cross-task manipulation in both simulation and real world. Compared to direct fine-tuning of representative VLAs, our method improves the average multi-task success rate by up to \textbf{9.8\%} in simulation and achieves a striking \textbf{32\% success rate gain} in a real-world cross-embodiment setting. Our work presents a general and lightweight solution that greatly enhances the practicality of deploying VLA models to new robotic platforms and tasks.

Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册