Latent Wasserstein Adversarial Imitation Learning

📄 arXiv: 2603.05440v1 📥 PDF

作者: Siqi Yang, Kai Yan, Alexander G. Schwing, Yu-Xiong Wang

分类: cs.LG

发布日期: 2026-03-05

备注: 10 pages, accepted to ICLR 2026


💡 一句话要点

提出LWAIL,利用动态感知隐空间Wasserstein距离实现高效状态模仿学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 对抗学习 Wasserstein距离 隐空间 动态感知

📋 核心要点

  1. 传统模仿学习依赖大量高质量的专家演示数据,特别是需要专家的动作信息,这在实际应用中往往难以满足。
  2. LWAIL利用动态感知隐空间中的Wasserstein距离进行状态分布匹配,通过预训练意图条件价值函数(ICVF)来学习状态空间的动态结构。
  3. 实验结果表明,LWAIL仅需少量状态数据即可达到专家级性能,并在多个MuJoCo环境中优于现有Wasserstein和对抗模仿学习方法。

📝 摘要(中文)

模仿学习(IL)旨在通过学习专家演示来模仿专家行为。然而,传统IL方法需要大量中高质量的专家演示以及专家动作,而这些通常难以获得。为了降低这一需求,我们提出了潜在Wasserstein对抗模仿学习(LWAIL),这是一种新颖的对抗模仿学习框架,专注于状态分布匹配。它受益于在动态感知隐空间中计算的Wasserstein距离。这种动态感知隐空间与先前工作不同,通过预训练阶段获得,在该阶段我们训练意图条件价值函数(ICVF),以使用少量随机生成的状态数据捕获状态空间的动态感知结构。我们表明,这增强了策略对状态转换的理解,使得学习过程能够仅使用一个或几个仅状态的专家片段来实现专家级别的性能。通过在多个MuJoCo环境中的实验,我们证明了我们的方法优于先前的基于Wasserstein的IL方法和先前的对抗IL方法,在各种任务中取得了更好的结果。

🔬 方法详解

问题定义:模仿学习旨在让智能体模仿专家的行为,但传统方法需要大量的专家演示数据,尤其是专家动作信息。获取这些数据成本高昂,限制了模仿学习的应用范围。因此,如何在少量状态数据下实现高效的模仿学习是一个关键问题。

核心思路:LWAIL的核心思路是利用Wasserstein距离来度量专家状态分布和智能体状态分布的差异,并在一个动态感知的隐空间中进行度量。通过预训练一个意图条件价值函数(ICVF),LWAIL能够学习到状态空间的动态结构,从而更好地理解状态之间的转换关系。

技术框架:LWAIL包含两个主要阶段:预训练阶段和模仿学习阶段。在预训练阶段,使用随机生成的状态数据训练ICVF,使其能够预测给定状态和意图下的价值。在模仿学习阶段,使用对抗学习框架,训练一个生成器(策略)来生成状态,并训练一个判别器来区分专家状态和生成的状态。Wasserstein距离用于度量专家状态分布和生成状态分布的差异,并指导策略的更新。

关键创新:LWAIL的关键创新在于引入了动态感知隐空间。与以往直接在原始状态空间或简单编码后的隐空间计算Wasserstein距离的方法不同,LWAIL通过预训练ICVF来学习状态空间的动态结构,使得Wasserstein距离的计算更加有效。这种动态感知能力使得LWAIL能够仅使用少量状态数据即可实现高效的模仿学习。

关键设计:ICVF的网络结构可以根据具体任务进行调整。损失函数包括ICVF的预测损失和对抗学习的损失。Wasserstein距离的计算可以使用Sinkhorn算法等方法进行近似。策略和判别器的网络结构也需要根据具体任务进行设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LWAIL在多个MuJoCo环境中的实验结果表明,其性能优于现有的Wasserstein和对抗模仿学习方法。例如,在某些任务中,LWAIL仅使用一个或几个专家片段即可达到专家级别的性能,而其他方法则需要更多的演示数据。此外,LWAIL在不同任务中的泛化能力也更强,表明其学习到的策略具有更好的鲁棒性。

🎯 应用场景

LWAIL具有广泛的应用前景,例如机器人控制、自动驾驶、游戏AI等领域。在这些领域中,获取大量的专家演示数据通常比较困难,而LWAIL仅需少量状态数据即可实现高效的模仿学习,降低了数据收集的成本,加速了智能体的学习过程。此外,LWAIL还可以应用于人类行为建模,通过学习人类的行为数据来预测人类的意图和行为。

📄 摘要(原文)

Imitation Learning (IL) enables agents to mimic expert behavior by learning from demonstrations. However, traditional IL methods require large amounts of medium-to-high-quality demonstrations as well as actions of expert demonstrations, both of which are often unavailable. To reduce this need, we propose Latent Wasserstein Adversarial Imitation Learning (LWAIL), a novel adversarial imitation learning framework that focuses on state-only distribution matching. It benefits from the Wasserstein distance computed in a dynamics-aware latent space. This dynamics-aware latent space differs from prior work and is obtained via a pre-training stage, where we train the Intention Conditioned Value Function (ICVF) to capture a dynamics-aware structure of the state space using a small set of randomly generated state-only data. We show that this enhances the policy's understanding of state transitions, enabling the learning process to use only one or a few state-only expert episodes to achieve expert-level performance. Through experiments on multiple MuJoCo environments, we demonstrate that our method outperforms prior Wasserstein-based IL methods and prior adversarial IL methods, achieving better results across various tasks.