CompassAD: Intent-Driven 3D Affordance Grounding in Functionally Competing Objects

📄 arXiv: 2604.02060v1 📥 PDF

作者: Jingliang Li, Jindou Jia, Tuo An, Chuhao Zhou, Xiangyu Chen, Shilin Shan, Boyu Ma, Bofan Lyu, Gen Li, Jianfei Yang

分类: cs.CV, cs.RO

发布日期: 2026-04-02

备注: Code available at: github.com/Lorenzo-0-0/CompassAD


💡 一句话要点

CompassAD提出意图驱动的3D可供性分割,解决功能竞争对象中的任务难题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D可供性分割 意图驱动 多对象场景 对比学习 机器人操作

📋 核心要点

  1. 现有3D可供性方法忽略了真实场景中多个对象功能相似但任务需求不同的挑战,即“混淆对”问题。
  2. CompassNet通过实例边界交叉注入(ICI)和双层对比细化(BCR)模块,提升模型在混淆对象中定位目标对象的能力。
  3. 实验表明,CompassNet在CompassAD数据集上取得了SOTA结果,并在真实机器人抓取任务中验证了其有效性。

📝 摘要(中文)

本文提出了一个名为“意图驱动指令下的多对象可供性分割”的新型3D可供性设定,旨在解决真实场景中多个对象共享相同可供性但只有特定对象适用于给定任务上下文的问题。为此,构建了首个专注于混淆多对象场景中隐式意图的基准数据集CompassAD,包含30个混淆对象对、6422个场景和88K+查询-答案对。此外,提出了CompassNet框架,该框架包含两个专门为此任务定制的模块:实例边界交叉注入(ICI)将语言-几何对齐限制在对象边界内,以防止跨对象语义泄漏;双层对比细化(BCR)在几何组和点级别强制区分,从而锐化目标和混淆表面之间的区别。大量实验表明,在已见和未见查询上均取得了最先进的结果,并且在机器人机械臂上的部署证实了其在混淆多对象场景中有效转移到真实世界抓取的能力。

🔬 方法详解

问题定义:现有3D可供性分割方法通常在孤立的单个对象上进行评估,并且查询中通常包含显式的类别名称,这与真实场景中多个对象共享相似可供性但只有特定对象适用于给定任务上下文的情况不符。论文关注的是“混淆对”问题,即在包含多个功能相似对象的场景中,如何根据隐式的自然语言意图,准确地分割出目标对象的可供性区域。

核心思路:论文的核心思路是利用实例边界约束和对比学习,增强模型区分目标对象和混淆对象的能力。实例边界约束通过限制语言-几何对齐在对象边界内,防止语义信息从一个对象泄漏到另一个对象。对比学习则通过在几何组和点级别强制区分目标和混淆表面,提高模型对细微差异的敏感度。

技术框架:CompassNet框架主要包含三个模块:特征提取模块、实例边界交叉注入(ICI)模块和双层对比细化(BCR)模块。首先,特征提取模块从点云和语言指令中提取几何和语义特征。然后,ICI模块将语言特征注入到几何特征中,并利用实例边界约束防止跨对象语义泄漏。最后,BCR模块在几何组和点级别进行对比学习,细化可供性分割结果。

关键创新:论文的关键创新在于提出了实例边界交叉注入(ICI)和双层对比细化(BCR)两个模块。ICI模块通过实例边界约束,有效地防止了跨对象语义泄漏,提高了模型在混淆对象场景中的性能。BCR模块通过在几何组和点级别进行对比学习,增强了模型对细微差异的敏感度,进一步提高了分割精度。

关键设计:ICI模块的关键设计在于利用实例分割结果作为mask,限制语言特征和几何特征的交互范围。BCR模块的关键设计在于构建正负样本对,正样本来自目标对象的可供性区域,负样本来自混淆对象的可供性区域。损失函数包括分割损失和对比损失,分割损失用于优化可供性分割结果,对比损失用于拉近正样本和推远负样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CompassNet在CompassAD数据集上取得了显著的性能提升。在seen query上,CompassNet的mIoU达到了62.5%,相比基线方法提升了5.3%。在unseen query上,CompassNet的mIoU达到了58.7%,相比基线方法提升了6.1%。此外,在真实机器人抓取实验中,CompassNet成功地将可供性分割结果转移到机器人操作中,验证了其在真实场景中的有效性。

🎯 应用场景

该研究成果可应用于机器人操作、智能家居、自动驾驶等领域。例如,在机器人操作中,机器人可以根据用户的自然语言指令,在多个功能相似的工具中选择合适的工具并执行任务。在智能家居中,智能助手可以根据用户的意图,控制家电设备执行相应的操作。在自动驾驶中,自动驾驶系统可以根据交通规则和驾驶员的意图,选择合适的驾驶行为。

📄 摘要(原文)

When told to "cut the apple," a robot must choose the knife over nearby scissors, despite both objects affording the same cutting function. In real-world scenes, multiple objects may share identical affordances, yet only one is appropriate under the given task context. We call such cases confusing pairs. However, existing 3D affordance methods largely sidestep this challenge by evaluating isolated single objects, often with explicit category names provided in the query. We formalize Multi-Object Affordance Grounding under Intent-Driven Instructions, a new 3D affordance setting that requires predicting a per-point affordance mask on the correct object within a cluttered multi-object point cloud, conditioned on implicit natural language intent. To study this problem, we construct CompassAD, the first benchmark centered on implicit intent in confusable multi-object scenes. It comprises 30 confusing object pairs spanning 16 affordance types, 6,422 scenes, and 88K+ query-answer pairs. Furthermore, we propose CompassNet, a framework that incorporates two dedicated modules tailored to this task. Instance-bounded Cross Injection (ICI) constrains language-geometry alignment within object boundaries to prevent cross-object semantic leakage. Bi-level Contrastive Refinement (BCR) enforces discrimination at both geometric-group and point levels, sharpening distinctions between target and confusable surfaces. Extensive experiments demonstrate state-of-the-art results on both seen and unseen queries, and deployment on a robotic manipulator confirms effective transfer to real-world grasping in confusing multi-object scenes.