LLM-MARS: Large Language Model for Behavior Tree Generation and NLP-enhanced Dialogue in Multi-Agent Robot Systems

📄 arXiv: 2312.09348v1 📥 PDF

作者: Artem Lykov, Maria Dronova, Nikolay Naglov, Mikhail Litvinov, Sergei Satsevich, Artem Bazhenov, Vladimir Berman, Aleksei Shcherbak, Dzmitry Tsetserukou

分类: cs.RO

发布日期: 2023-12-14

备注: 2023 IEEE. This work has been submitted to IEEE for possible publication. arXiv admin note: text overlap with arXiv:2305.19352


💡 一句话要点

LLM-MARS:利用大语言模型实现多智能体机器人系统的行为树生成与自然语言增强对话

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大语言模型 行为树生成 自然语言处理 人机交互 机器人控制 LoRa微调

📋 核心要点

  1. 现有方法难以使多智能体机器人系统根据人类指令动态生成行为,并进行自然语言交互。
  2. LLM-MARS利用微调的大语言模型,通过LoRa适配器分别处理行为树生成和问答任务,实现动态对话和行为生成。
  3. 在Eurobot 2023规则下的实验表明,LLM-MARS在复合命令下的任务执行准确率达到79.28%,简单命令准确率超过90%。

📝 摘要(中文)

本文介绍了LLM-MARS,一种首创的基于大语言模型的人工智能技术,应用于多智能体机器人系统。LLM-MARS实现了人与机器人之间的动态对话,使机器人能够根据操作员的命令生成行为,并对有关其行为的问题提供信息丰富的答案。LLM-MARS构建于基于Transformer的大语言模型之上,并基于Falcon 7B模型进行了微调。我们采用了一种多模态方法,使用LoRa适配器来处理不同的任务。第一个LoRa适配器通过在行为树及其对应命令的示例上微调基础模型而开发。第二个LoRa适配器通过在问答示例上进行微调而开发。在Eurobot 2023游戏规则下的两个机器人的多智能体系统上的实际试验表明了有希望的结果。机器人在复合命令中的平均任务执行准确率达到79.28%。对于包含最多两个任务的命令,准确率超过90%。评估证实,系统对操作员问题的回答表现出很高的准确性、相关性和信息性。LLM-MARS和类似的多智能体机器人系统具有彻底改变物流、实现自主探索任务和推进工业5.0的巨大潜力。

🔬 方法详解

问题定义:论文旨在解决多智能体机器人系统中,机器人难以理解人类自然语言指令并生成相应的行为,以及难以进行自然、信息丰富的对话的问题。现有方法通常依赖于预定义的行为规则或有限的对话模板,缺乏灵活性和泛化能力。

核心思路:论文的核心思路是利用大语言模型(LLM)的强大自然语言理解和生成能力,将人类指令转化为机器人可执行的行为树,并实现基于知识的问答。通过微调LLM,使其能够理解机器人领域的特定指令和知识,从而实现更智能的人机交互。

技术框架:LLM-MARS的整体架构包含以下主要模块:1) 基于Falcon 7B的预训练大语言模型;2) 用于行为树生成的LoRa适配器,通过在行为树和对应命令的数据集上微调得到;3) 用于问答的LoRa适配器,通过在问答数据集上微调得到。用户输入自然语言指令,LLM首先将其解析为行为树,然后机器人执行该行为树。用户可以提问关于机器人行为的问题,LLM利用问答适配器生成答案。

关键创新:该论文的关键创新在于将大语言模型应用于多智能体机器人系统,并利用LoRa适配器进行多任务微调。与传统方法相比,LLM-MARS能够处理更复杂的自然语言指令,并生成更灵活的行为。此外,通过问答适配器,机器人能够提供更信息丰富的反馈,增强了人机交互的自然性。

关键设计:论文使用了Falcon 7B作为基础大语言模型,并针对行为树生成和问答任务分别设计了LoRa适配器。LoRa适配器的具体网络结构和训练参数未知。行为树生成适配器的训练数据包含行为树及其对应的自然语言命令。问答适配器的训练数据包含问题和答案对,这些问题涉及机器人的行为和环境信息。具体损失函数和优化算法未知。

📊 实验亮点

实验结果表明,LLM-MARS在Eurobot 2023游戏规则下的多智能体系统中表现出色。对于复合命令,任务执行准确率达到79.28%,对于包含最多两个任务的命令,准确率超过90%。此外,系统对操作员问题的回答表现出很高的准确性、相关性和信息性。这些结果验证了LLM-MARS在多智能体机器人系统中的有效性。

🎯 应用场景

LLM-MARS具有广泛的应用前景,例如在物流领域,可以实现自主仓库管理和货物配送;在探索领域,可以用于自主探索未知环境;在工业领域,可以推进工业5.0的发展,实现更智能的生产流程。该研究的实际价值在于提高了机器人系统的智能化水平和人机交互的自然性,未来可能促进机器人技术在各个领域的应用。

📄 摘要(原文)

This paper introduces LLM-MARS, first technology that utilizes a Large Language Model based Artificial Intelligence for Multi-Agent Robot Systems. LLM-MARS enables dynamic dialogues between humans and robots, allowing the latter to generate behavior based on operator commands and provide informative answers to questions about their actions. LLM-MARS is built on a transformer-based Large Language Model, fine-tuned from the Falcon 7B model. We employ a multimodal approach using LoRa adapters for different tasks. The first LoRa adapter was developed by fine-tuning the base model on examples of Behavior Trees and their corresponding commands. The second LoRa adapter was developed by fine-tuning on question-answering examples. Practical trials on a multi-agent system of two robots within the Eurobot 2023 game rules demonstrate promising results. The robots achieve an average task execution accuracy of 79.28% in compound commands. With commands containing up to two tasks accuracy exceeded 90%. Evaluation confirms the system's answers on operators questions exhibit high accuracy, relevance, and informativeness. LLM-MARS and similar multi-agent robotic systems hold significant potential to revolutionize logistics, enabling autonomous exploration missions and advancing Industry 5.0.