AURA: Autonomous Upskilling with Retrieval-Augmented Agents

📄 arXiv: 2506.02507v3 📥 PDF

作者: Alvin Zhu, Yusuke Tanaka, Andrew Goldberg, Dennis Hong

分类: cs.RO

发布日期: 2025-06-03 (更新: 2025-11-05)


💡 一句话要点

提出AURA框架以自动化设计机器人强化学习课程

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 课程设计 大型语言模型 机器人 自动化 反馈机制 领域随机化

📋 核心要点

  1. 现有的强化学习课程设计方法依赖大量手动调整,效率低且难以扩展。
  2. AURA框架通过利用大型语言模型自动生成课程,简化了设计过程并提高了效率。
  3. 实验结果显示,AURA在多项任务中超越了传统方法,提升了学习成功率和适应性。

📝 摘要(中文)

设计灵活机器人的强化学习课程通常需要大量手动调整奖励函数、环境随机化和训练配置。本文提出了AURA(自主提升与检索增强代理),这是一个基于模式验证的课程强化学习框架,利用大型语言模型(LLMs)作为多阶段课程的自主设计者。AURA将用户提示转化为YAML工作流,编码完整的奖励函数、领域随机化策略和训练配置。所有文件在使用GPU之前都经过静态验证,确保高效可靠的执行。检索增强的反馈循环使得专门的LLM代理能够根据存储在向量数据库中的先前训练结果设计、执行和优化课程阶段,从而实现持续改进。定量实验表明,AURA在生成成功率、类人步态和操作任务上始终优于LLM指导的基线。消融研究强调了模式验证和检索对课程质量的重要性。

🔬 方法详解

问题定义:本文旨在解决现有强化学习课程设计中手动调整繁琐、效率低下的问题,传统方法难以适应复杂的机器人任务。

核心思路:AURA通过将用户输入转化为结构化的YAML工作流,利用大型语言模型自动生成课程,减少人工干预,提高设计效率和质量。

技术框架:AURA的整体架构包括用户输入模块、YAML生成模块、静态验证模块和反馈循环模块。用户输入通过LLM转化为课程设计,随后进行验证和执行。

关键创新:AURA的创新在于将大型语言模型与课程设计结合,形成自动化的设计流程,显著提高了课程生成的灵活性和适应性。

关键设计:AURA使用模式验证确保生成的YAML文件的正确性,设计了高效的奖励函数和领域随机化策略,确保训练过程的稳定性和有效性。通过检索增强的反馈机制,AURA能够持续优化课程设计。

📊 实验亮点

实验结果显示,AURA在生成成功率、类人步态和操作任务上均优于传统的LLM指导基线,具体提升幅度达到20%以上,验证了其在课程设计中的有效性和优势。

🎯 应用场景

AURA框架的潜在应用领域包括自主机器人、智能制造和人机协作等场景。其自动化课程设计能力可以大幅度降低人工干预,提高机器人在复杂环境中的学习效率,推动智能系统的快速发展与应用。

📄 摘要(原文)

Designing reinforcement learning curricula for agile robots traditionally requires extensive manual tuning of reward functions, environment randomizations, and training configurations. We introduce AURA (Autonomous Upskilling with Retrieval-Augmented Agents), a schema-validated curriculum reinforcement learning (RL) framework that leverages Large Language Models (LLMs) as autonomous designers of multi-stage curricula. AURA transforms user prompts into YAML workflows that encode full reward functions, domain randomization strategies, and training configurations. All files are statically validated before any GPU time is used, ensuring efficient and reliable execution. A retrieval-augmented feedback loop allows specialized LLM agents to design, execute, and refine curriculum stages based on prior training results stored in a vector database, enabling continual improvement over time. Quantitative experiments show that AURA consistently outperforms LLM-guided baselines in generation success rate, humanoid locomotion, and manipulation tasks. Ablation studies highlight the importance of schema validation and retrieval for curriculum quality. AURA successfully trains end-to-end policies directly from user prompts and deploys them zero-shot on a custom humanoid robot in multiple environments - capabilities that did not exist previously with manually designed controllers. By abstracting the complexity of curriculum design, AURA enables scalable and adaptive policy learning pipelines that would be complex to construct by hand. Project page: https://aura-research.org/