Structured Imitation Learning of Interactive Policies through Inverse Games

📄 arXiv: 2511.12848v1 📥 PDF

作者: Max M. Sun, Todd Murphey

分类: cs.RO, cs.LG

发布日期: 2025-11-17

备注: Presented at the "Workshop on Generative Modeling Meets Human-Robot Interaction" at Robotics: Science and Systems 2025. Workshop website: https://sites.google.com/view/gai-hri/


💡 一句话要点

通过逆向博弈的结构化模仿学习交互策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 模仿学习 交互策略 逆向博弈 多智能体系统 社交导航

📋 核心要点

  1. 现有模仿学习方法在多智能体交互场景中,由于行为复杂性高,学习交互策略面临挑战。
  2. 该论文提出一种结构化模仿学习框架,结合生成式单智能体策略学习和博弈论结构,显式分离个体行为学习和智能体间依赖关系学习。
  3. 实验结果表明,该方法在社交导航任务中,仅使用少量演示数据,即可显著提升非交互策略性能,接近真实交互策略。

📝 摘要(中文)

基于生成模型的模仿学习方法最近在从人类演示中学习高复杂度运动技能方面取得了显著成果。然而,在共享空间中与人类协调而无需显式通信的交互策略的模仿学习仍然具有挑战性,这是因为多智能体交互中的行为复杂性远高于非交互任务。本文提出了一种结构化模仿学习框架,用于交互策略,该框架将生成式单智能体策略学习与灵活且富有表现力的博弈论结构相结合。我们的方法明确地将学习分为两个步骤:首先,我们使用标准的模仿学习方法从多智能体演示中学习个体行为模式;然后,我们通过解决逆向博弈问题来结构化地学习智能体间的依赖关系。在合成的5智能体社交导航任务中的初步结果表明,我们的方法显著改进了非交互策略,并且仅使用50个演示就能达到与真实交互策略相当的性能。这些结果突显了结构化模仿学习在交互环境中的潜力。

🔬 方法详解

问题定义:现有模仿学习方法在学习交互策略时,尤其是在多智能体环境下,面临着行为复杂性高的挑战。传统的模仿学习方法难以捕捉智能体之间的依赖关系,导致学习到的策略在交互环境中表现不佳。尤其是在没有显式通信的情况下,智能体需要通过观察其他智能体的行为来推断其意图,这进一步增加了学习的难度。

核心思路:该论文的核心思路是将交互策略的学习分解为两个步骤:首先,学习个体智能体的行为模式;然后,学习智能体之间的依赖关系。通过这种分解,可以降低学习的复杂性,并更好地捕捉智能体之间的交互行为。论文利用博弈论的框架来建模智能体之间的依赖关系,并使用逆向博弈的方法来学习这些关系。

技术框架:该方法包含两个主要阶段:1) 个体行为学习阶段:使用标准的模仿学习方法,例如行为克隆或生成对抗模仿学习,从多智能体演示数据中学习每个智能体的个体行为策略。2) 智能体间依赖关系学习阶段:将智能体之间的交互建模为一个博弈,并使用逆向博弈的方法来学习博弈的收益函数。收益函数反映了智能体之间的依赖关系,例如合作、竞争或协调。通过学习收益函数,可以推断出每个智能体在不同情况下的最佳策略。

关键创新:该论文的关键创新在于将结构化的博弈论框架引入到模仿学习中,从而能够显式地建模和学习智能体之间的依赖关系。与传统的模仿学习方法相比,该方法能够更好地捕捉智能体之间的交互行为,并学习到更有效的交互策略。此外,该方法还使用了逆向博弈的方法来学习收益函数,这使得该方法能够从有限的演示数据中学习到智能体之间的复杂关系。

关键设计:在个体行为学习阶段,可以使用各种模仿学习算法,例如行为克隆、Dagger或生成对抗模仿学习。在智能体间依赖关系学习阶段,需要选择合适的博弈模型和逆向博弈算法。例如,可以使用势博弈来建模合作行为,并使用梯度下降法来学习收益函数。损失函数可以设计为真实策略与学习到的策略之间的差异,例如KL散度或交叉熵。

📊 实验亮点

在合成的5智能体社交导航任务中,该方法仅使用50个演示数据,就显著改进了非交互策略,并达到了与真实交互策略相当的性能。这表明该方法能够有效地从有限的数据中学习到智能体之间的复杂交互关系,并学习到有效的交互策略。具体提升幅度未知,原文未给出明确数据。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的场景,例如自动驾驶、机器人协作、社交导航等。通过学习人类的交互策略,可以使智能体更好地与人类或其他智能体进行协作,从而提高系统的整体性能和安全性。此外,该方法还可以用于分析人类的交互行为,例如理解人类在社交场合中的行为模式。

📄 摘要(原文)

Generative model-based imitation learning methods have recently achieved strong results in learning high-complexity motor skills from human demonstrations. However, imitation learning of interactive policies that coordinate with humans in shared spaces without explicit communication remains challenging, due to the significantly higher behavioral complexity in multi-agent interactions compared to non-interactive tasks. In this work, we introduce a structured imitation learning framework for interactive policies by combining generative single-agent policy learning with a flexible yet expressive game-theoretic structure. Our method explicitly separates learning into two steps: first, we learn individual behavioral patterns from multi-agent demonstrations using standard imitation learning; then, we structurally learn inter-agent dependencies by solving an inverse game problem. Preliminary results in a synthetic 5-agent social navigation task show that our method significantly improves non-interactive policies and performs comparably to the ground truth interactive policy using only 50 demonstrations. These results highlight the potential of structured imitation learning in interactive settings.