MINT-RVAE: Multi-Cues Intention Prediction of Human-Robot Interaction using Human Pose and Emotion Information from RGB-only Camera Data

作者: Farida Mohsen, Ali Safa

分类: cs.RO, cs.CV

发布日期: 2025-09-26

💡 一句话要点

MINT-RVAE：利用RGB图像的人体姿态和情感信息进行人机交互意图预测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机交互 意图预测 RGB图像 生成对抗网络 数据增强 变分自编码器 姿态估计 情感识别

📋 核心要点

现有的人机交互意图预测方法依赖RGB-D等多模态输入，成本较高且限制了应用场景。
论文提出MINT-RVAE模型，仅使用RGB图像，通过生成对抗网络解决数据不平衡问题，提升预测精度。
实验结果表明，该方法在人机交互意图预测任务上取得了state-of-the-art的性能，AUROC达到0.95。

📝 摘要（中文）

为了实现有效的人机交互与协作，高效地检测人类与机器人交互的意图至关重要。过去十年，深度学习在该领域备受关注，但现有方法大多依赖于多模态输入，例如RGB结合深度信息(RGB-D)，将感觉数据的时间序列窗口分类为交互或非交互。与此不同，我们提出了一种新颖的仅使用RGB图像的流程，用于以帧级精度预测人类交互意图，从而加快机器人响应速度并提高服务质量。意图预测的一个关键挑战是真实世界人机交互数据集中固有的类别不平衡问题，这会阻碍模型的训练和泛化。为了解决这个问题，我们引入了MINT-RVAE，一种合成序列生成方法，以及新的损失函数和训练策略，以增强对样本外数据的泛化能力。我们的方法实现了最先进的性能（AUROC：0.95），优于先前的工作（AUROC：0.90-0.912），同时仅需要RGB输入并支持精确的帧起始预测。最后，为了支持未来的研究，我们公开了我们新的数据集，其中包含人类交互意图的帧级标注。

🔬 方法详解

问题定义：现有的人机交互意图预测方法通常依赖于RGB-D数据，这限制了其在仅有RGB相机的环境中的应用。此外，真实世界的人机交互数据集通常存在类别不平衡问题，即交互行为的样本远少于非交互行为的样本，这会导致模型训练偏差，泛化能力下降。

核心思路：论文的核心思路是利用RGB图像中的人体姿态和情感信息来预测人机交互意图，并使用生成对抗网络（GAN）来合成交互行为的样本，从而缓解数据不平衡问题。通过这种方式，模型可以更好地学习交互行为的特征，提高预测精度和泛化能力。

技术框架：整体框架包含以下几个主要模块：1) 人体姿态估计模块，用于从RGB图像中提取人体关键点；2) 情感识别模块，用于识别人的情感状态；3) MINT-RVAE模块，用于生成合成的交互行为序列；4) 意图预测模块，用于预测人机交互意图。该框架首先从RGB图像中提取人体姿态和情感信息，然后利用MINT-RVAE生成更多的交互行为样本，最后将这些样本用于训练意图预测模型。

关键创新：论文最重要的技术创新点在于提出了MINT-RVAE模型，该模型是一种基于变分自编码器（VAE）的生成对抗网络，可以生成高质量的交互行为序列。与传统的GAN相比，MINT-RVAE可以更好地控制生成样本的多样性和质量，从而提高模型的泛化能力。此外，该方法仅使用RGB图像作为输入，降低了对硬件的要求，使其更易于部署。

关键设计：MINT-RVAE模型采用VAE的结构，包含编码器和解码器。编码器将输入序列映射到隐空间，解码器从隐空间重构输入序列。为了提高生成样本的质量，论文引入了对抗训练机制，即训练一个判别器来区分真实样本和生成样本。此外，论文还设计了新的损失函数，包括重构损失、KL散度损失和对抗损失，以优化模型的训练。在训练过程中，论文采用了多种训练策略，例如梯度裁剪和学习率衰减，以提高模型的稳定性和收敛速度。

📊 实验亮点

该论文提出的MINT-RVAE模型在人机交互意图预测任务上取得了state-of-the-art的性能，AUROC达到0.95，优于先前的工作（AUROC：0.90-0.912）。该方法仅使用RGB图像作为输入，降低了对硬件的要求。此外，论文还公开了一个新的数据集，其中包含人类交互意图的帧级标注，为未来的研究提供了便利。

🎯 应用场景

该研究成果可广泛应用于各种人机交互场景，例如智能家居、服务机器人、自动驾驶等。通过准确预测人类的交互意图，机器人可以更智能地响应人类的需求，提供更优质的服务，从而提升用户体验。此外，该研究还可以促进人机协作的发展，使人类和机器人能够更好地协同工作，共同完成复杂的任务。

📄 摘要（原文）

Efficiently detecting human intent to interact with ubiquitous robots is crucial for effective human-robot interaction (HRI) and collaboration. Over the past decade, deep learning has gained traction in this field, with most existing approaches relying on multimodal inputs, such as RGB combined with depth (RGB-D), to classify time-sequence windows of sensory data as interactive or non-interactive. In contrast, we propose a novel RGB-only pipeline for predicting human interaction intent with frame-level precision, enabling faster robot responses and improved service quality. A key challenge in intent prediction is the class imbalance inherent in real-world HRI datasets, which can hinder the model's training and generalization. To address this, we introduce MINT-RVAE, a synthetic sequence generation method, along with new loss functions and training strategies that enhance generalization on out-of-sample data. Our approach achieves state-of-the-art performance (AUROC: 0.95) outperforming prior works (AUROC: 0.90-0.912), while requiring only RGB input and supporting precise frame onset prediction. Finally, to support future research, we openly release our new dataset with frame-level labeling of human interaction intent.

MINT-RVAE: Multi-Cues Intention Prediction of Human-Robot Interaction using Human Pose and Emotion Information from RGB-only Camera Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册