Affordance-Guided Coarse-to-Fine Exploration for Base Placement in Open-Vocabulary Mobile Manipulation
作者: Tzu-Jung Lin, Jia-Fong Yeh, Hung-Ting Su, Chung-Yi Lin, Yi-Ting Chen, Winston H. Hsu
分类: cs.RO, cs.AI
发布日期: 2025-11-09
备注: Accepted to AAAI 2026
💡 一句话要点
提出Affordance引导的粗到细探索方法,解决开放词汇移动操作中的基座放置问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 开放词汇移动操作 基座放置 可供性 视觉-语言模型 几何规划 机器人 多模态融合
📋 核心要点
- 现有开放词汇移动操作方法忽略了可供性,导致机器人基座放置不佳,操作失败率高。
- 提出Affordance引导的粗到细探索框架,利用视觉-语言模型和几何约束,实现更优的基座放置。
- 实验结果表明,该方法在多个任务中显著优于传统方法和基于视觉-语言模型的方法,成功率达到85%。
📝 摘要(中文)
在开放词汇移动操作(OVMM)中,任务成功通常取决于为机器人选择合适的基座位置。现有方法通常导航到基于邻近度的区域,而没有考虑可供性(affordance),导致频繁的操作失败。我们提出了一种Affordance引导的粗到细探索方法,这是一个用于基座放置的零样本框架,它将视觉-语言模型(VLM)的语义理解与通过迭代优化过程实现的几何可行性相结合。我们的方法构建了跨模态表示,即Affordance RGB和Obstacle Map+,以将语义与空间上下文对齐。这使得推理能够超越RGB感知的自我中心限制。为了确保交互由任务相关的可供性引导,我们利用来自VLM的粗略语义先验来引导搜索到任务相关的区域,并使用几何约束来细化位置,从而降低收敛到局部最优的风险。在五个不同的开放词汇移动操作任务上评估,我们的系统实现了85%的成功率,显著优于经典的几何规划器和基于VLM的方法。这证明了可供性感知和多模态推理在OVMM中用于可泛化的、指令条件规划的潜力。
🔬 方法详解
问题定义:论文旨在解决开放词汇移动操作(OVMM)中机器人基座放置的问题。现有方法主要依赖于邻近度进行导航,忽略了场景中物体的可供性(affordance),导致机器人无法到达最佳操作位置,从而导致操作失败。这些方法缺乏对场景语义信息的有效利用,以及对机器人运动几何约束的考虑。
核心思路:论文的核心思路是利用视觉-语言模型(VLM)提供的语义信息,结合几何约束,引导机器人进行粗到细的基座位置探索。通过VLM理解任务相关的可供性,并将其作为搜索的先验知识,避免陷入局部最优。同时,利用几何信息进行位置优化,确保机器人能够安全且有效地执行操作。
技术框架:该框架主要包含以下几个模块:1) 跨模态表示构建:构建Affordance RGB和Obstacle Map+,将语义信息和空间信息融合。Affordance RGB通过VLM提取场景中物体的语义信息,并将其与RGB图像对齐。Obstacle Map+则包含了场景中的障碍物信息,用于进行几何约束。2) 粗略语义先验引导:利用VLM提供的语义信息,确定任务相关的区域,作为基座位置搜索的初始范围。3) 几何约束的位置细化:在粗略搜索的基础上,利用几何约束对基座位置进行优化,例如避免碰撞、保证可达性等。
关键创新:该论文的关键创新在于将视觉-语言模型的语义理解能力与几何规划相结合,实现了一种Affordance引导的基座位置探索方法。与传统方法相比,该方法能够更好地理解任务需求,并选择更合适的基座位置。此外,该方法还提出了一种新的跨模态表示方式,能够有效地融合语义信息和空间信息。
关键设计:论文中关键的设计包括:1) Affordance RGB的构建:利用VLM提取场景中物体的语义信息,并将其与RGB图像对齐,形成Affordance RGB。2) Obstacle Map+的构建:Obstacle Map+不仅包含了场景中的障碍物信息,还包含了机器人的运动学信息,用于进行更精确的几何约束。3) 粗到细的搜索策略:首先利用VLM提供的语义信息进行粗略搜索,然后利用几何约束进行位置细化,从而避免陷入局部最优。
📊 实验亮点
该系统在五个不同的开放词汇移动操作任务上进行了评估,取得了显著的成果。实验结果表明,该系统实现了85%的成功率,显著优于经典的几何规划器和基于VLM的方法。例如,在某个任务中,该系统的成功率比传统方法提高了30%以上,证明了Affordance引导的基座位置探索方法的有效性。
🎯 应用场景
该研究成果可应用于各种需要移动操作的场景,例如家庭服务机器人、仓库物流机器人、医疗辅助机器人等。通过理解任务需求和场景语义,机器人能够自主选择合适的基座位置,从而更高效、更安全地完成任务。该技术还有潜力应用于自动驾驶、增强现实等领域。
📄 摘要(原文)
In open-vocabulary mobile manipulation (OVMM), task success often hinges on the selection of an appropriate base placement for the robot. Existing approaches typically navigate to proximity-based regions without considering affordances, resulting in frequent manipulation failures. We propose Affordance-Guided Coarse-to-Fine Exploration, a zero-shot framework for base placement that integrates semantic understanding from vision-language models (VLMs) with geometric feasibility through an iterative optimization process. Our method constructs cross-modal representations, namely Affordance RGB and Obstacle Map+, to align semantics with spatial context. This enables reasoning that extends beyond the egocentric limitations of RGB perception. To ensure interaction is guided by task-relevant affordances, we leverage coarse semantic priors from VLMs to guide the search toward task-relevant regions and refine placements with geometric constraints, thereby reducing the risk of convergence to local optima. Evaluated on five diverse open-vocabulary mobile manipulation tasks, our system achieves an 85% success rate, significantly outperforming classical geometric planners and VLM-based methods. This demonstrates the promise of affordance-aware and multimodal reasoning for generalizable, instruction-conditioned planning in OVMM.