LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments

📄 arXiv: 2603.04705v1 📥 PDF

作者: Ivy Xiao He, Stefanie Tellex, Jason Xinyu Liu

分类: cs.RO, cs.HC

发布日期: 2026-03-05

备注: 10 pages, 8 figures, accepted at ACM/IEEE International Conference on Human-Robot Interaction (HRI 2026)

DOI: 10.1145/3757279.3785585


💡 一句话要点

提出LEGS-POMDP以解决部分可观测环境中的物体搜索问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 部分可观测环境 多模态融合 物体搜索 机器人导航 不确定性建模

📋 核心要点

  1. 现有方法在处理长时间任务时缺乏有效的不确定性建模,导致机器人难以准确理解模糊指令。
  2. LEGS-POMDP通过集成语言、手势和视觉观察,提供了一种模块化的POMDP系统,能够有效应对目标物体身份和位置的不确定性。
  3. 在仿真实验中,LEGS-POMDP的多模态融合方法实现了89%的成功率,显著优于传统的单模态基线,验证了其有效性。

📝 摘要(中文)

为了帮助人类在开放世界环境中,机器人必须理解模糊的指令以定位所需物体。基于基础模型的方法在多模态基础上表现优异,但缺乏在长时间任务中建模不确定性的原则机制。相对而言,部分可观测马尔可夫决策过程(POMDP)提供了在不确定性下规划的系统框架,但通常在支持的模态上有限,并依赖于限制性的环境假设。我们提出了语言和手势引导的部分可观测环境中的物体搜索(LEGS-POMDP),这是一个模块化的POMDP系统,集成了语言、手势和视觉观察,用于开放世界物体搜索。与之前的工作不同,LEGS-POMDP明确建模了两种部分可观测性来源:目标物体身份和空间位置的不确定性。在仿真中,多模态融合显著优于单模态基线,在具有挑战性的环境和物体类别中实现了89%的平均成功率。最后,我们在四足移动操控器上展示了完整系统,真实世界实验定性验证了在模糊指令下的鲁棒多模态感知和不确定性降低。

🔬 方法详解

问题定义:本论文旨在解决机器人在部分可观测环境中对模糊指令的理解和物体搜索问题。现有方法在长时间任务中缺乏有效的不确定性建模,导致机器人难以准确定位目标物体。

核心思路:LEGS-POMDP的核心思路是通过模块化的POMDP框架,结合语言、手势和视觉信息,系统性地建模目标物体身份和空间位置的不确定性,从而提高物体搜索的成功率。

技术框架:该方法的整体架构包括三个主要模块:语言理解模块、手势识别模块和视觉感知模块。这些模块通过多模态融合技术进行协同工作,以提升对目标物体的识别和定位能力。

关键创新:LEGS-POMDP的最大创新在于其明确建模了两种来源的不确定性,分别是目标物体的身份和空间位置,这与传统方法的单一模态建模形成了鲜明对比。

关键设计:在设计上,LEGS-POMDP采用了特定的损失函数来平衡不同模态的信息融合,并通过优化算法来提高系统的整体性能。具体的参数设置和网络结构细节在实验部分进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在仿真实验中,LEGS-POMDP的多模态融合方法实现了89%的成功率,显著优于传统单模态基线,展示了在复杂环境和多样物体类别中的优越性能。这一结果验证了其在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能家居、服务机器人和搜索救援等场景。通过提高机器人对模糊指令的理解能力,LEGS-POMDP能够在复杂环境中更有效地执行任务,具有重要的实际价值和未来影响。

📄 摘要(原文)

To assist humans in open-world environments, robots must interpret ambiguous instructions to locate desired objects. Foundation model-based approaches excel at multimodal grounding, but they lack a principled mechanism for modeling uncertainty in long-horizon tasks. In contrast, Partially Observable Markov Decision Processes (POMDPs) provide a systematic framework for planning under uncertainty but are often limited in supported modalities and rely on restrictive environment assumptions. We introduce LanguagE and Gesture-Guided Object Search in Partially Observable Environments (LEGS-POMDP), a modular POMDP system that integrates language, gesture, and visual observations for open-world object search. Unlike prior work, LEGS-POMDP explicitly models two sources of partial observability: uncertainty over the target object's identity and its spatial location. In simulation, multimodal fusion significantly outperforms unimodal baselines, achieving an average success rate of 89\% across challenging environments and object categories. Finally, we demonstrate the full system on a quadruped mobile manipulator, where real-world experiments qualitatively validate robust multimodal perception and uncertainty reduction under ambiguous instructions.