Multimodal Behavior Tree Generation: A Small Vision-Language Model for Robot Task Planning

📄 arXiv: 2603.06084v1 📥 PDF

作者: Cristiano Battistini, Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci

分类: cs.RO

发布日期: 2026-03-06


💡 一句话要点

提出多模态行为树生成方法,用小型视觉-语言模型进行机器人任务规划。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人任务规划 视觉-语言模型 行为树生成 参数高效微调 多模态学习

📋 核心要点

  1. 现有机器人任务规划方法依赖大型语言模型,但缺乏对视觉信息的有效利用。
  2. 利用视觉-语言模型生成行为树,构建视觉观察与可执行动作的桥梁,实现更智能的任务规划。
  3. 通过多阶段生成流程构建数据集,并使用参数高效微调方法,降低计算成本,提升模型性能。

📝 摘要(中文)

本文提出了一种结合大型和小型语言模型以及视觉-语言模型(VLM)的方法,用于机器人任务规划。该方法部署了一个紧凑的开源多模态模型,以生成用于机器人任务规划的行为树。由于缺乏将视觉观察和指令链接到可执行行为树的现有数据集,本文提出了一种从现有机器人事件(即Open X-Embodiment)构建此类数据集的方法,其中大型模型充当多阶段生成管道中的教师。该数据集用于通过参数高效微调(PEFT)来微调参数范围从500M到4B的VLM。生成的行为树与BehaviorTree.CPP库兼容,通过在最先进的具身模拟器中执行家庭任务进行离线(使用结构和词汇指标)和在线评估。结果表明,微调后的4B参数VLM接近最先进的闭源模型的性能,成功率达到87%,同时仅需少量计算资源。

🔬 方法详解

问题定义:论文旨在解决机器人任务规划中,如何有效利用视觉信息生成可执行的行为树的问题。现有方法主要依赖大型语言模型,缺乏对环境视觉信息的感知和理解,导致任务规划的鲁棒性和适应性不足。此外,缺乏将视觉信息与行为树直接关联的数据集,限制了视觉-语言模型在机器人任务规划中的应用。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)将视觉观察和指令映射到可执行的行为树。通过构建一个包含视觉信息和行为树的数据集,并使用参数高效微调(PEFT)方法,训练一个小型但高效的VLM,使其能够根据视觉输入生成合理的行为树,从而实现更智能的机器人任务规划。

技术框架:整体框架包含以下几个主要阶段:1) 数据集构建:利用大型模型作为教师,从现有的机器人事件(Open X-Embodiment)中生成包含视觉信息和行为树的数据集。2) 模型微调:使用参数高效微调(PEFT)方法,对参数范围从500M到4B的VLM进行微调。3) 行为树生成:使用微调后的VLM,根据视觉输入生成行为树。4) 评估:通过离线(结构和词汇指标)和在线(具身模拟器)两种方式评估生成的行为树的质量和执行效果。

关键创新:论文的关键创新在于:1) 提出了一个多阶段生成流程,用于构建将视觉信息与行为树关联的数据集,解决了数据稀缺的问题。2) 利用参数高效微调(PEFT)方法,在小型VLM上实现了接近大型闭源模型的性能,降低了计算成本。3) 将视觉-语言模型应用于机器人行为树生成,实现了视觉信息驱动的机器人任务规划。

关键设计:在数据集构建阶段,使用大型模型生成行为树作为标签。在模型微调阶段,采用了LoRA等参数高效微调方法,减少了需要训练的参数量。在评估阶段,使用了结构相似性、词汇相似性等指标来评估生成行为树的质量,并在具身模拟器中进行了在线测试,验证了行为树的可执行性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过微调的4B参数VLM在行为树生成任务上取得了显著的性能提升,成功率达到87%,接近最先进的闭源模型。同时,该模型仅需少量计算资源,验证了参数高效微调方法的有效性。离线评估指标也表明,生成的行为树在结构和词汇上都具有较高的质量。

🎯 应用场景

该研究成果可应用于家庭服务机器人、工业自动化、自动驾驶等领域。通过视觉信息驱动的机器人任务规划,可以使机器人更智能、更自主地完成复杂任务,提高工作效率和服务质量。未来,该方法有望扩展到更复杂的环境和任务,实现更高级别的机器人智能。

📄 摘要(原文)

Large and small language models have been widely used for robotic task planning. At the same time, vision-language models (VLMs) have successfully tackled problems such as image captioning, scene understanding, and visual question answering. In this work, we combine these two approaches by deploying a compact, open-source multimodal model to generate behavior trees for robotic task planning. The main obstacle to achieving this goal is the lack of an existing dataset that links visual observations and instructions to executable behavior trees. We propose a method to construct such a dataset starting from existing robotic episodes (i.e., Open X-Embodiment), in which a large model serves as a teacher in a multi-stage generation pipeline. We use this dataset to fine-tune VLMs ranging from 500M to 4B parameters via parameter-efficient fine-tuning (PEFT). The generated behavior trees, compatible with the BehaviorTree.CPP library, are evaluated both offline, using structural and lexical metrics, and online through the execution of household tasks in a state-of-the-art embodied simulator. Our results demonstrate that our fine-tuned 4B-parameter VLM approaches the performance of state-of-the-art closed-source models, achieving an 87\% success rate while requiring only a fraction of the computational resources.