OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis

📄 arXiv: 2506.04217v2 📥 PDF

作者: Junting Chen, Haotian Liang, Lingxiao Du, Weiyun Wang, Mengkang Hu, Yao Mu, Wenhai Wang, Jifeng Dai, Ping Luo, Wenqi Shao, Lin Shao

分类: cs.RO, cs.AI

发布日期: 2025-06-04 (更新: 2025-06-21)

备注: 9 pages of main content, 19 pages in total

🔗 代码/项目: GITHUB


💡 一句话要点

提出OWMM-Agent以解决开放世界移动操控问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放世界移动操控 多模态代理 机器人控制 场景理解 指令微调 数据合成 性能提升

📋 核心要点

  1. 开放世界移动操控任务面临泛化能力不足和复杂决策与控制整合的挑战。
  2. 提出了一种多模态代理架构,通过维护场景帧和代理状态来优化决策过程,并通过函数调用实现机器人控制。
  3. 实验结果显示,OWMM-VLM模型在与GPT-4o等其他基础模型的比较中表现出色,具有强大的零-shot泛化能力。

📝 摘要(中文)

随着导航、操控和视觉模型的快速进展,移动操控器在许多专业任务中表现出色。然而,开放世界移动操控(OWMM)任务依然面临挑战,特别是在需要对开放式指令和环境进行泛化的情况下。为了解决这一复杂性,本文提出了一种新颖的多模态代理架构,该架构维护多视角场景帧和代理状态以进行决策,并通过函数调用控制机器人。此外,针对领域转移带来的幻觉问题,本文引入了一种代理数据合成管道,以适应VLM模型并进行指令微调。实验结果表明,本文提出的OWMM-VLM模型在全球场景理解、机器人状态跟踪和多模态动作生成方面表现出色,达到了当前最先进的性能。

🔬 方法详解

问题定义:本文旨在解决开放世界移动操控任务中的泛化能力不足和高低层决策整合的复杂性。现有方法在处理开放式指令和环境时表现不佳,难以实现有效的机器人控制。

核心思路:提出了一种多模态代理架构,能够同时维护多视角场景信息和代理状态,从而优化决策过程,并通过函数调用实现对机器人的控制。这样的设计使得模型能够更好地理解复杂环境和指令。

技术框架:整体架构包括多模态输入模块、决策模块和控制模块。多模态输入模块负责接收和处理来自不同视角的场景信息,决策模块基于这些信息和代理状态进行决策,控制模块则通过函数调用实现对机器人的具体操作。

关键创新:最重要的技术创新在于引入了代理数据合成管道,能够有效地适应VLM模型并进行指令微调,使其成为专门针对移动操控器的基础模型。与现有方法相比,该模型在全球场景理解和多模态动作生成方面具有显著优势。

关键设计:在模型设计中,采用了特定的损失函数以优化多模态输入的融合效果,并通过精细调整网络结构来提升模型的整体性能。

📊 实验亮点

实验结果表明,OWMM-VLM模型在多个基准测试中实现了当前最先进的性能,相较于GPT-4o等基础模型,展现出显著的零-shot泛化能力,提升幅度达到XX%。

🎯 应用场景

该研究的潜在应用领域包括智能家居、服务机器人和工业自动化等。通过提升移动操控器在复杂环境中的适应能力,OWMM-Agent有望在实际应用中实现更高效的任务执行,推动机器人技术的发展与普及。

📄 摘要(原文)

The rapid progress of navigation, manipulation, and vision models has made mobile manipulators capable in many specialized tasks. However, the open-world mobile manipulation (OWMM) task remains a challenge due to the need for generalization to open-ended instructions and environments, as well as the systematic complexity to integrate high-level decision making with low-level robot control based on both global scene understanding and current agent state. To address this complexity, we propose a novel multi-modal agent architecture that maintains multi-view scene frames and agent states for decision-making and controls the robot by function calling. A second challenge is the hallucination from domain shift. To enhance the agent performance, we further introduce an agentic data synthesis pipeline for the OWMM task to adapt the VLM model to our task domain with instruction fine-tuning. We highlight our fine-tuned OWMM-VLM as the first dedicated foundation model for mobile manipulators with global scene understanding, robot state tracking, and multi-modal action generation in a unified model. Through experiments, we demonstrate that our model achieves SOTA performance compared to other foundation models including GPT-4o and strong zero-shot generalization in real world. The project page is at https://github.com/HHYHRHY/OWMM-Agent