"Set It Up": Functional Object Arrangement with Compositional Generative Models (Journal Version)

📄 arXiv: 2508.02068v2 📥 PDF

作者: Yiqing Xu, Jiayuan Mao, Linfeng Li, Yilun Du, Tomas Lozáno-Pérez, Leslie Pack Kaelbling, David Hsu

分类: cs.RO

发布日期: 2025-08-04 (更新: 2025-08-07)

备注: This is the journal version accepted to the International Journal of Robotics Research (IJRR). It extends our prior work presented at Robotics: Science and Systems (RSS) 2024, with a new compositional program induction pipeline from natural language, and expanded evaluations on personalized bookshelf and bedroom furniture layout tasks


💡 一句话要点

提出SetItUp框架以解决功能性物体排列问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 功能性物体排列 神经符号方法 大语言模型 扩散模型 基础图 智能家居 机器人助手

📋 核心要点

  1. 现有方法在功能性物体排列任务中面临指令不明确的问题,难以准确指定目标物体的姿态。
  2. 论文提出的SetItUp框架通过神经符号方法,利用大语言模型和扩散模型,分阶段解决物体排列问题。
  3. 实验结果显示,SetItUp在三个不同任务家族上均优于现有模型,生成的物体排列在功能性和美观性上都有显著提升。

📝 摘要(中文)

功能性物体排列(FORM)是将物体排列以实现特定功能的任务,例如“为两人设置餐桌”。该论文提出了SetItUp,一个神经符号框架,能够从少量训练示例和结构化自然语言任务规范中学习物体的目标姿态。SetItUp使用一个基础图,表示物体之间的抽象空间关系,将FORM问题分解为两个阶段:预测基础图和根据基础图预测物体姿态。实验表明,SetItUp在生成功能性、物理可行且美观的物体排列方面优于现有模型。

🔬 方法详解

问题定义:论文要解决的具体问题是如何在功能性物体排列任务中,从不明确的指令中推断出物体的目标姿态。现有方法往往无法处理指令的模糊性,导致生成的排列不符合预期。

核心思路:论文的核心解决思路是通过构建一个神经符号框架SetItUp,利用大语言模型从任务规范和少量示例中生成基础图,并通过扩散模型预测物体姿态。这种设计使得系统能够在新场景中有效推理。

技术框架:SetItUp的整体架构分为两个主要阶段:第一阶段是预测物体之间的基础图,第二阶段是根据基础图预测物体的具体姿态。第一阶段利用大语言模型生成Python程序,第二阶段则通过预训练的扩散模型进行姿态预测。

关键创新:SetItUp的主要创新在于将神经网络与符号推理相结合,利用基础图作为中间表示,使得系统能够更好地处理模糊指令。这一方法与传统的单一模型方法有本质区别。

关键设计:在技术细节上,SetItUp使用了多种扩散模型来捕捉基本空间关系,并在线组合这些模型以预测物体姿态。损失函数的设计也经过精心调整,以确保生成的排列既符合物理规律,又具备美观性。

📊 实验亮点

实验结果表明,SetItUp在三个任务家族中均优于现有模型,生成的物体排列在功能性、物理可行性和美观性上都有显著提升,具体性能数据未提供,但提升幅度明显。

🎯 应用场景

该研究的潜在应用领域包括智能家居、机器人助手和虚拟环境设计等。通过实现功能性物体的智能排列,能够提升用户体验,减少人工干预,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Functional object arrangement (FORM) is the task of arranging objects to fulfill a function, e.g., "set up a dining table for two". One key challenge here is that the instructions for FORM are often under-specified and do not explicitly specify the desired object goal poses. This paper presents SetItUp, a neuro-symbolic framework that learns to specify the goal poses of objects from a few training examples and a structured natural-language task specification. SetItUp uses a grounding graph, which is composed of abstract spatial relations among objects (e.g., left-of), as its intermediate representation. This decomposes the FORM problem into two stages: (i) predicting this graph among objects and (ii) predicting object poses given the grounding graph. For (i), SetItUp leverages large language models (LLMs) to induce Python programs from a task specification and a few training examples. This program can be executed to generate grounding graphs in novel scenarios. For (ii), SetItUp pre-trains a collection of diffusion models to capture primitive spatial relations and online composes these models to predict object poses based on the grounding graph. We evaluated SetItUp on a dataset spanning three distinct task families: arranging tableware on a dining table, organizing items on a bookshelf, and laying out furniture in a bedroom. Experiments show that SetItUp outperforms existing models in generating functional, physically feasible, and aesthetically pleasing object arrangements. This article extends our conference paper published at Robotics: Science and Systems (RSS) 2024.