Language-Guided Long Horizon Manipulation with LLM-based Planning and Visual Perception

📄 arXiv: 2509.02324v1 📥 PDF

作者: Changshi Zhou, Haichuan Xu, Ningquan Gu, Zhipeng Wang, Bin Cheng, Pengpeng Zhang, Yanchao Dong, Mitsuhiro Hayashibe, Yanmin Zhou, Bin He

分类: cs.RO

发布日期: 2025-09-02


💡 一句话要点

提出基于LLM规划和视觉感知的语言引导长时程操作框架,解决可变形物体操作难题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言引导操作 长时程规划 可变形物体操作 大型语言模型 视觉语言模型 机器人 布料折叠

📋 核心要点

  1. 可变形物体操作因其高自由度、复杂动力学和精确视觉-语言对齐需求而极具挑战。
  2. 该方法提出一个统一框架,结合LLM规划器、VLM感知系统和任务执行模块,实现语言引导的长时程操作。
  3. 实验结果表明,该方法在模拟和真实机器人环境中均优于现有技术,展现了强大的泛化能力。

📝 摘要(中文)

本文针对可变形物体的语言引导长时程操作提出了一个统一框架,该任务因高自由度、复杂动力学以及精确的视觉-语言对齐而极具挑战。研究聚焦于多步骤的布料折叠,这是一个具有代表性的可变形物体操作任务,需要结构化的长时程规划和精细的视觉感知。该框架集成了基于大型语言模型(LLM)的规划器、基于视觉-语言模型(VLM)的感知系统和任务执行模块。具体而言,LLM规划器将高层语言指令分解为低层动作原语,弥合了语义-执行的差距,对齐了感知与动作,并增强了泛化能力。VLM感知模块采用SigLIP2驱动的架构,具有双向交叉注意力融合机制和权重分解低秩适应(DoRA)微调,以实现语言条件下的精细视觉定位。在模拟和真实世界的实验均验证了该方法的有效性。在模拟中,该方法在已见指令、未见指令和未见任务上分别优于最先进的基线2.23、1.87和33.3。在真实机器人上,该方法能够从语言指令中稳健地执行跨多种布料材料和配置的多步骤折叠序列,展示了在实际场景中的强大泛化能力。

🔬 方法详解

问题定义:论文旨在解决语言引导下的可变形物体(特别是布料)长时程操作问题。现有方法难以处理布料的高自由度、复杂动力学以及语言指令到具体动作的映射,导致泛化能力不足。现有方法在感知和规划上存在脱节,难以实现精确的视觉-语言对齐。

核心思路:论文的核心思路是利用大型语言模型(LLM)进行高层规划,将语言指令分解为可执行的动作序列,并结合视觉-语言模型(VLM)进行精细的视觉感知,从而实现语言引导下的长时程操作。通过LLM弥合语义和执行之间的差距,并对齐感知和动作。

技术框架:整体框架包含三个主要模块:1) 基于LLM的规划器:负责将高层语言指令分解为低层动作原语序列。2) 基于VLM的感知模块:负责根据语言指令进行视觉定位,识别布料的状态和关键点。3) 任务执行模块:负责执行规划器生成的动作序列,完成布料折叠任务。VLM感知模块采用SigLIP2驱动的架构,并使用双向交叉注意力融合机制和DoRA微调。

关键创新:该方法的主要创新在于将LLM引入到可变形物体操作的规划中,利用LLM强大的语言理解和推理能力,实现了从高层语言指令到低层动作原语的有效映射。此外,VLM感知模块采用双向交叉注意力融合机制和DoRA微调,提高了视觉定位的精度和泛化能力。

关键设计:VLM感知模块的关键设计包括:1) 使用SigLIP2作为视觉编码器,以获得更强的视觉表征能力。2) 采用双向交叉注意力融合机制,将语言信息和视觉信息进行有效融合。3) 使用DoRA微调,在保持模型性能的同时,降低了计算成本。LLM规划器使用Prompt Engineering来指导LLM生成合适的动作序列。

📊 实验亮点

该方法在模拟环境中,在已见指令、未见指令和未见任务上分别优于最先进的基线2.23、1.87和33.3。在真实机器人上,该方法能够从语言指令中稳健地执行跨多种布料材料和配置的多步骤折叠序列,展示了强大的泛化能力和实际应用潜力。

🎯 应用场景

该研究成果可应用于自动化服装制造、家用机器人、医疗护理等领域。例如,在服装制造中,机器人可以根据设计图纸自动完成布料的裁剪和缝纫。在家用机器人领域,机器人可以根据用户的语言指令完成衣物的整理和折叠。在医疗护理领域,机器人可以辅助医护人员进行手术或康复训练。

📄 摘要(原文)

Language-guided long-horizon manipulation of deformable objects presents significant challenges due to high degrees of freedom, complex dynamics, and the need for accurate vision-language grounding. In this work, we focus on multi-step cloth folding, a representative deformable-object manipulation task that requires both structured long-horizon planning and fine-grained visual perception. To this end, we propose a unified framework that integrates a Large Language Model (LLM)-based planner, a Vision-Language Model (VLM)-based perception system, and a task execution module. Specifically, the LLM-based planner decomposes high-level language instructions into low-level action primitives, bridging the semantic-execution gap, aligning perception with action, and enhancing generalization. The VLM-based perception module employs a SigLIP2-driven architecture with a bidirectional cross-attention fusion mechanism and weight-decomposed low-rank adaptation (DoRA) fine-tuning to achieve language-conditioned fine-grained visual grounding. Experiments in both simulation and real-world settings demonstrate the method's effectiveness. In simulation, it outperforms state-of-the-art baselines by 2.23, 1.87, and 33.3 on seen instructions, unseen instructions, and unseen tasks, respectively. On a real robot, it robustly executes multi-step folding sequences from language instructions across diverse cloth materials and configurations, demonstrating strong generalization in practical scenarios. Project page: https://language-guided.netlify.app/