Interactive Humanoid: Online Full-Body Motion Reaction Synthesis with Social Affordance Canonicalization and Forecasting

作者: Yunze Liu, Changxi Chen, Li Yi

分类: cs.CV

发布日期: 2023-12-14 (更新: 2024-02-05)

💡 一句话要点

提出基于社交可供性的拟人机器人在线全身动作反应合成方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics) 支柱五：交互与反应 (Interaction & Reaction)

关键词: 人机交互 全身动作合成 社交可供性 动作预测 SE(3)-Equivariant神经网络

📋 核心要点

现有方法在人机交互中缺乏对物体交互的考虑，且忽略了手部动作的生成，限制了交互的真实性和完整性。
论文提出基于社交可供性的表示方法，通过规范化处理，使机器人能够理解并预测人类的交互意图。
实验结果表明，该方法在多个数据集上均能生成高质量的机器人反应，验证了其有效性和泛化能力。

📝 摘要（中文）

本文关注人-拟人机器人交互任务，可选地包含物体。我们提出了一项名为在线全身动作反应合成的新任务，该任务基于人类参与者的动作生成拟人机器人的反应。先前的工作仅关注无人体交互，并且生成的身体反应不包含手部动作。此外，他们也没有将该任务视为在线设置，这意味着无法观察到实际情况中当前时刻之外的信息。为了支持这项任务，我们构建了两个数据集HHI和CoChair，并提出了一种统一的方法。具体来说，我们提出构建一种社交可供性表示。我们首先选择一个社交可供性载体，并使用SE(3)-Equivariant神经网络来学习载体的局部坐标系，然后我们对社交可供性进行规范化。此外，我们提出了一种社交可供性预测方案，使反应器能够基于想象的未来进行预测。实验表明，我们的方法可以有效地在HHI和CoChair上生成高质量的反应。此外，我们还在现有人体交互数据集Interhuman和Chi3D上验证了我们的方法。

🔬 方法详解

问题定义：现有的人机交互方法主要集中在人与人之间的交互，忽略了人与物体以及机器人与物体之间的交互。此外，现有方法通常无法生成包含手部动作的全身反应，并且缺乏在线处理能力，无法根据实时的人类动作进行反应。这限制了机器人在实际场景中的应用。

核心思路：本文的核心思路是利用社交可供性来表示人与物体之间的交互关系，并预测未来的交互意图。通过学习社交可供性载体的局部坐标系，并对可供性进行规范化，使得机器人能够理解人类的动作，并生成相应的全身反应。此外，通过社交可供性预测，机器人可以预测人类未来的动作，从而提前做出反应。

技术框架：该方法包含以下几个主要模块：1) 社交可供性载体选择：选择与交互相关的物体作为社交可供性载体。2) 局部坐标系学习：使用SE(3)-Equivariant神经网络学习社交可供性载体的局部坐标系。3) 社交可供性规范化：将社交可供性表示转换到规范化的坐标系下。4) 社交可供性预测：预测未来的社交可供性。5) 反应生成：根据当前的社交可供性和预测的社交可供性，生成机器人的全身反应。

关键创新：该方法的关键创新在于：1) 提出了社交可供性的概念，并将其应用于人机交互中。2) 使用SE(3)-Equivariant神经网络学习社交可供性载体的局部坐标系，保证了坐标系变换的等变性。3) 提出了社交可供性预测方案，使得机器人能够预测人类未来的动作，从而提前做出反应。与现有方法相比，该方法能够生成更自然、更流畅的机器人反应。

关键设计：在社交可供性载体选择方面，需要根据具体的交互任务选择合适的物体。在SE(3)-Equivariant神经网络的设计方面，需要考虑网络的层数、每层的通道数以及激活函数等因素。在社交可供性预测方面，可以使用循环神经网络（RNN）或者Transformer等模型。损失函数的设计需要考虑反应的准确性、流畅性以及与人类动作的协调性。

📊 实验亮点

实验结果表明，该方法在HHI和CoChair数据集上能够生成高质量的机器人反应。在现有人体交互数据集Interhuman和Chi3D上的验证也表明了该方法的泛化能力。相较于现有方法，该方法生成的反应更加自然、流畅，并且能够更好地与人类的动作协调。

🎯 应用场景

该研究成果可应用于多种人机交互场景，例如：智能家居、康复机器人、虚拟助手等。通过使机器人能够理解人类的交互意图并做出相应的反应，可以提高人机交互的自然性和效率。此外，该方法还可以用于训练机器人进行复杂的协作任务，例如：人机协同装配、人机协同医疗等。

📄 摘要（原文）

We focus on the human-humanoid interaction task optionally with an object. We propose a new task named online full-body motion reaction synthesis, which generates humanoid reactions based on the human actor's motions. The previous work only focuses on human interaction without objects and generates body reactions without hand. Besides, they also do not consider the task as an online setting, which means the inability to observe information beyond the current moment in practical situations. To support this task, we construct two datasets named HHI and CoChair and propose a unified method. Specifically, we propose to construct a social affordance representation. We first select a social affordance carrier and use SE(3)-Equivariant Neural Networks to learn the local frame for the carrier, then we canonicalize the social affordance. Besides, we propose a social affordance forecasting scheme to enable the reactor to predict based on the imagined future. Experiments demonstrate that our approach can effectively generate high-quality reactions on HHI and CoChair. Furthermore, we also validate our method on existing human interaction datasets Interhuman and Chi3D.

Interactive Humanoid: Online Full-Body Motion Reaction Synthesis with Social Affordance Canonicalization and Forecasting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册