GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning

📄 arXiv: 2603.04158v1 📥 PDF

作者: Mingleyang Li, Yuran Wang, Yue Chen, Tianxing Chen, Jiaqi Liang, Zishun Shen, Haoran Lu, Ruihai Wu, Hao Dong

分类: cs.RO, cs.AI

发布日期: 2026-03-04

备注: ICRA2026 Accepted

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出GarmentPile++,通过视觉-语言推理实现乱堆衣物中基于语义的精准抓取。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 衣物抓取 视觉语言推理 视觉可供性 机器人操作 乱堆场景

📋 核心要点

  1. 现有衣物操作研究大多假设初始状态为单件衣物,而现实中乱堆衣物更为常见,这限制了实际应用。
  2. GarmentPile++结合视觉-语言推理与视觉可供性,利用VLM进行高级决策,并使用视觉可供性实现低级动作的泛化。
  3. 通过SAM2分割衣物,并进行mask微调以提升分割质量,同时采用双臂协作处理大尺寸或易下垂的衣物。

📝 摘要(中文)

本文提出了一种新颖的衣物抓取流程GarmentPile++,旨在解决家庭助理机器人中乱堆衣物的抓取问题。该流程不仅能够根据语言指令安全、干净地执行抓取,而且保证每次只抓取一件衣物,为后续任务(如折叠、悬挂、穿戴)奠定坚实的基础。GarmentPile++无缝集成了视觉-语言推理和视觉可供性感知,充分利用了视觉语言模型(VLM)的高级推理和规划能力,以及视觉可供性对低级动作的泛化能力。为了增强VLM对衣物堆中每件衣物状态的全面感知,我们采用视觉分割模型(SAM2)对衣物堆执行对象分割,为基于VLM的推理提供足够的视觉线索。此外,还集成了一种mask微调机制,以解决初始分割结果不理想的情况。此外,还部署了一个双臂协作框架,以解决涉及大型或长款衣物,以及因不正确的抓取点确定而导致的过度衣物下垂的情况,这些情况对于单臂来说都是难以处理的。我们的流程的有效性在真实和模拟环境中的各种任务和不同场景中都得到了持续的证明。

🔬 方法详解

问题定义:现有衣物操作方法主要针对单件衣物,无法直接应用于现实场景中常见的乱堆衣物。在乱堆衣物中,如何根据语言指令准确抓取单件目标衣物,同时保证抓取的安全性和成功率,是一个具有挑战性的问题。现有方法在处理复杂堆叠情况时,容易出现抓取错误、一次抓取多件衣物或抓取失败等问题。

核心思路:GarmentPile++的核心思路是将视觉-语言推理与视觉可供性相结合。利用视觉语言模型(VLM)理解用户的语言指令,并结合视觉信息进行高级推理和规划,确定目标衣物和合适的抓取点。同时,利用视觉可供性感知,学习低级抓取动作的泛化能力,从而实现对不同类型和状态的衣物的鲁棒抓取。

技术框架:GarmentPile++的整体框架包含以下几个主要模块:1) 视觉分割模块:使用SAM2分割衣物堆,生成每个衣物的mask。如果分割效果不佳,则进行mask微调。2) 视觉-语言推理模块:将分割后的衣物图像和用户的语言指令输入VLM,VLM根据视觉和语言信息推理出目标衣物和最佳抓取点。3) 视觉可供性感知模块:根据VLM确定的抓取点,利用视觉可供性模型生成低级抓取动作。4) 双臂协作模块:对于大型或易下垂的衣物,采用双臂协作的方式进行抓取,提高抓取的稳定性和成功率。

关键创新:GarmentPile++的关键创新在于:1) 视觉-语言推理与视觉可供性的无缝集成:充分利用了VLM的高级推理能力和视觉可供性的泛化能力,实现了对乱堆衣物的智能抓取。2) 基于SAM2的衣物分割和mask微调:提高了衣物分割的准确性和鲁棒性,为VLM的推理提供了更可靠的视觉信息。3) 双臂协作框架:解决了单臂难以处理的大型或易下垂衣物抓取问题。

关键设计:在视觉分割模块中,使用了SAM2作为初始分割模型,并通过mask微调来优化分割结果。在视觉-语言推理模块中,使用了预训练的VLM,并通过少量样本进行微调,以适应衣物抓取任务。在视觉可供性感知模块中,使用了深度神经网络来学习低级抓取动作的泛化能力。双臂协作模块采用了基于力/位混合控制的策略,以保证抓取的稳定性和安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GarmentPile++在真实和模拟环境中进行了广泛的实验验证,结果表明该方法能够有效地抓取乱堆衣物,并具有较高的成功率和鲁棒性。具体性能数据和与其他基线的对比结果在论文中进行了详细的展示。实验结果证明了GarmentPile++在处理复杂衣物抓取任务方面的优越性。

🎯 应用场景

GarmentPile++在家庭服务机器人领域具有广阔的应用前景,可以用于自动整理衣物、辅助老年人或残疾人穿衣等。此外,该技术还可以应用于服装生产、仓储物流等领域,实现衣物的自动化分拣和处理,提高生产效率和降低人工成本。未来,该研究可以进一步扩展到其他物体的抓取和操作,为实现更智能化的机器人提供技术支持。

📄 摘要(原文)

Garment manipulation has attracted increasing attention due to its critical role in home-assistant robotics. However, the majority of existing garment manipulation works assume an initial state consisting of only one garment, while piled garments are far more common in real-world settings. To bridge this gap, we propose a novel garment retrieval pipeline that can not only follow language instruction to execute safe and clean retrieval but also guarantee exactly one garment is retrieved per attempt, establishing a robust foundation for the execution of downstream tasks (e.g., folding, hanging, wearing). Our pipeline seamlessly integrates vision-language reasoning with visual affordance perception, fully leveraging the high-level reasoning and planning capabilities of VLMs alongside the generalization power of visual affordance for low-level actions. To enhance the VLM's comprehensive awareness of each garment's state within a garment pile, we employ visual segmentation model (SAM2) to execute object segmentation on the garment pile for aiding VLM-based reasoning with sufficient visual cues. A mask fine-tuning mechanism is further integrated to address scenarios where the initial segmentation results are suboptimal. In addition, a dual-arm cooperation framework is deployed to address cases involving large or long garments, as well as excessive garment sagging caused by incorrect grasping point determination, both of which are strenuous for a single arm to handle. The effectiveness of our pipeline are consistently demonstrated across diverse tasks and varying scenarios in both real-world and simulation environments. Project page: https://garmentpile2.github.io/.