LiFT: Unsupervised Reinforcement Learning with Foundation Models as Teachers

📄 arXiv: 2312.08958v1 📥 PDF

作者: Taewook Nam, Juyong Lee, Jesse Zhang, Sung Ju Hwang, Joseph J. Lim, Karl Pertsch

分类: cs.LG, cs.AI, cs.RO

发布日期: 2023-12-14

备注: 2nd Workshop on Agent Learning in Open-Endedness (ALOE) at NeurIPS 2023


💡 一句话要点

LiFT:利用基础模型作为教师的无监督强化学习,提升智能体语义行为学习能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无监督强化学习 基础模型 语言条件策略 视觉-语言模型 MineDojo 语义技能学习

📋 核心要点

  1. 现有无监督技能发现方法在复杂开放环境中难以学习具有语义意义的行为,缺乏有效的指导信号。
  2. LiFT框架利用大型语言模型生成任务指令,视觉-语言模型提供奖励反馈,引导智能体学习语言条件策略。
  3. 实验表明,LiFT在MineDojo环境中能够学习到语义相关的技能,优于传统的无监督技能发现方法。

📝 摘要(中文)

本文提出了一种框架,该框架利用基础模型作为教师,引导强化学习智能体在没有人工反馈的情况下获得具有语义意义的行为。在该框架中,智能体从大型语言模型接收基于训练环境的任务指令。然后,视觉-语言模型通过提供奖励反馈来指导智能体学习多任务语言条件策略。我们证明了我们的方法可以在具有挑战性的开放式MineDojo环境中学习具有语义意义的技能,而先前的无监督技能发现方法则难以做到。此外,我们还讨论了使用现成的基础模型作为教师时观察到的挑战以及我们为解决这些挑战所做的努力。

🔬 方法详解

问题定义:现有无监督强化学习方法在复杂、开放的环境(如MineDojo)中,难以学习到具有语义意义的技能。主要痛点在于缺乏有效的、能够引导智能体探索和学习的外部信号。传统的无监督技能发现方法通常依赖于内在奖励或随机探索,难以应对复杂任务和长期依赖关系。

核心思路:LiFT的核心思路是利用预训练的基础模型(大型语言模型和视觉-语言模型)作为教师,为强化学习智能体提供任务指令和奖励信号。通过语言指令引导智能体探索,并通过视觉-语言模型的语义理解能力来评估智能体的行为,从而实现无监督的语义技能学习。

技术框架:LiFT框架包含以下几个主要模块:1) 语言模型(LLM):生成任务指令,例如“砍伐一棵树”。2) 强化学习智能体:根据语言指令在环境中执行动作。3) 视觉-语言模型(VLM):观察环境状态和智能体的行为,并根据任务指令评估智能体的表现,生成奖励信号。4) 强化学习算法:利用VLM提供的奖励信号,学习语言条件策略,即根据不同的语言指令执行相应的动作。整体流程是LLM生成指令,智能体执行,VLM评估并提供奖励,智能体根据奖励更新策略。

关键创新:LiFT的关键创新在于将预训练的基础模型引入到无监督强化学习中,利用其强大的语言理解和视觉感知能力,为智能体提供语义层面的指导。与传统的无监督方法相比,LiFT不再依赖于内在奖励或随机探索,而是通过外部的语言指令和视觉反馈来引导智能体学习,从而能够学习到更复杂、更具有语义意义的技能。

关键设计:在具体实现上,LLM可以使用GPT-3等大型语言模型,VLM可以使用CLIP等视觉-语言模型。奖励函数的设计至关重要,需要能够准确反映智能体行为与任务指令之间的语义关系。例如,可以使用VLM计算智能体执行动作后的环境状态与任务指令之间的相似度,作为奖励信号。此外,还需要考虑如何处理VLM可能产生的噪声和偏差,例如通过过滤低质量的奖励信号或使用多个VLM进行集成。

📊 实验亮点

实验结果表明,LiFT在MineDojo环境中能够学习到多种具有语义意义的技能,例如砍树、制作工具等。与传统的无监督技能发现方法相比,LiFT在任务完成率和学习效率方面均有显著提升。例如,在砍树任务中,LiFT的成功率比基线方法提高了约30%。

🎯 应用场景

LiFT框架具有广泛的应用前景,例如可以应用于机器人控制、游戏AI、自动驾驶等领域。通过利用基础模型作为教师,可以降低对人工标注数据的依赖,实现更高效、更灵活的智能体训练。此外,LiFT还可以用于探索新的技能和行为,为智能体的自主学习和进化提供新的可能性。

📄 摘要(原文)

We propose a framework that leverages foundation models as teachers, guiding a reinforcement learning agent to acquire semantically meaningful behavior without human feedback. In our framework, the agent receives task instructions grounded in a training environment from large language models. Then, a vision-language model guides the agent in learning the multi-task language-conditioned policy by providing reward feedback. We demonstrate that our method can learn semantically meaningful skills in a challenging open-ended MineDojo environment while prior unsupervised skill discovery methods struggle. Additionally, we discuss observed challenges of using off-the-shelf foundation models as teachers and our efforts to address them.