FLEET: Formal Language-Grounded Scheduling for Heterogeneous Robot Teams

📄 arXiv: 2510.07417v1 📥 PDF

作者: Corban Rivera, Grayson Byrd, Meghan Booker, Bethany Kemp, Allison Gaines, Emma Holmes, James Uplinger, Celso M de Melo, David Handelman

分类: cs.RO

发布日期: 2025-10-08


💡 一句话要点

FLEET:面向异构机器人团队的基于形式语言的调度方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多机器人系统 自然语言指令 任务调度 混合整数线性规划 大型语言模型 异构机器人团队 自主协调

📋 核心要点

  1. 现有方法难以协调异构机器人团队,语言规划器存在长时程问题,形式化方法依赖封闭世界模型。
  2. FLEET将自然语言指令转化为优化的多机器人调度,结合LLM和形式化方法,实现高效的任务分配。
  3. 实验表明,FLEET在异构任务中优于现有生成式规划器,并在真实四足机器人上验证了有效性。

📝 摘要(中文)

从自由形式的自然语言指令协调异构机器人团队非常困难。纯语言规划器在长时程协调和幻觉问题上表现不佳,而纯形式化方法需要封闭世界的模型。我们提出了FLEET,一个混合的去中心化框架,可以将语言转化为优化的多机器人调度。LLM前端生成(i)具有持续时间和优先级的任务图,以及(ii)一个具有能力感知的机器人-任务适应度矩阵;形式化后端解决最小化完工时间的问题,同时底层机器人使用自主闭环控制执行其自由形式的子任务。在多个自由形式的语言引导自主协调基准测试中,FLEET在异构任务的双智能体团队中,提高了优于最先进的生成式规划器的成功率。消融实验表明,混合整数线性规划(MILP)主要改善了时间结构,而LLM衍生的适应度对于能力耦合的任务至关重要;它们共同提供了最高的整体性能。我们使用一对具有不相交能力的四足机器人进行了硬件试验,展示了向现实世界挑战的转化。

🔬 方法详解

问题定义:现有方法在协调异构机器人团队时面临挑战。纯语言规划器难以处理长时程任务,容易产生幻觉;而纯形式化方法需要预先定义完整的环境模型,限制了其在复杂、动态环境中的应用。因此,如何将自然语言指令转化为可执行的多机器人调度方案,同时克服上述缺点,是本文要解决的核心问题。

核心思路:FLEET的核心思路是结合大型语言模型(LLM)的语义理解能力和形式化方法的优化能力,构建一个混合的去中心化框架。LLM负责将自然语言指令转化为任务图和机器人-任务适应度矩阵,形式化方法则基于这些信息进行调度优化,从而实现高效的任务分配和协调。

技术框架:FLEET框架主要包含两个阶段:LLM前端和形式化后端。LLM前端接收自然语言指令,生成任务图(包含任务的持续时间和优先级关系)以及机器人-任务适应度矩阵(表示每个机器人执行特定任务的能力)。形式化后端则利用这些信息,通过混合整数线性规划(MILP)求解一个最小化完工时间的调度问题。底层机器人则根据调度结果,使用自主闭环控制执行各自的子任务。

关键创新:FLEET的关键创新在于将LLM的语义理解能力与形式化方法的优化能力相结合,从而克服了传统方法在处理复杂、动态环境中的局限性。通过LLM生成任务图和适应度矩阵,FLEET能够处理自由形式的自然语言指令,并根据机器人的能力进行任务分配。同时,形式化后端保证了调度的优化性和可行性。

关键设计:任务图的构建依赖于LLM对自然语言指令的解析,需要设计合适的prompt工程来引导LLM生成准确的任务依赖关系和持续时间估计。机器人-任务适应度矩阵的构建则需要考虑机器人的具体能力,例如运动速度、负载能力等。MILP模型的构建需要仔细设计目标函数和约束条件,以保证调度的效率和可行性。目标函数通常是最小化完工时间,约束条件则包括任务的优先级关系、机器人的能力限制等。

📊 实验亮点

实验结果表明,FLEET在多个自由形式的语言引导自主协调基准测试中,优于最先进的生成式规划器。在异构任务的双智能体团队中,FLEET显著提高了任务成功率。消融实验表明,MILP主要改善了时间结构,而LLM衍生的适应度对于能力耦合的任务至关重要。硬件实验使用一对具有不相交能力的四足机器人,验证了FLEET在真实世界中的可行性。

🎯 应用场景

FLEET具有广泛的应用前景,例如在搜救行动中,可以利用无人机和地面机器人协同搜索目标;在智能制造领域,可以利用不同类型的机器人协同完成复杂的装配任务;在农业领域,可以利用无人机和地面机器人协同进行作物监测和管理。该研究的实际价值在于提高了多机器人系统的自主性和效率,未来有望推动机器人技术在更多领域的应用。

📄 摘要(原文)

Coordinating heterogeneous robot teams from free-form natural-language instructions is hard. Language-only planners struggle with long-horizon coordination and hallucination, while purely formal methods require closed-world models. We present FLEET, a hybrid decentralized framework that turns language into optimized multi-robot schedules. An LLM front-end produces (i) a task graph with durations and precedence and (ii) a capability-aware robot--task fitness matrix; a formal back-end solves a makespan-minimization problem while the underlying robots execute their free-form subtasks with agentic closed-loop control. Across multiple free-form language-guided autonomy coordination benchmarks, FLEET improves success over state of the art generative planners on two-agent teams across heterogeneous tasks. Ablations show that mixed integer linear programming (MILP) primarily improves temporal structure, while LLM-derived fitness is decisive for capability-coupled tasks; together they deliver the highest overall performance. We demonstrate the translation to real world challenges with hardware trials using a pair of quadruped robots with disjoint capabilities.