RegFormer: Transferable Relational Grounding for Efficient Weakly-Supervised Human-Object Interaction Detection

📄 arXiv: 2604.00507v1 📥 PDF

作者: Jihwan Park, Chanhyeong Yang, Jinyoung Park, Taehoon Song, Hyunwoo J. Kim

分类: cs.CV

发布日期: 2026-04-01

备注: Accepted at CVPR2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出RegFormer,通过可迁移的关系建模实现高效弱监督人-物交互检测

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物交互检测 弱监督学习 关系建模 Transformer 空间推理

📋 核心要点

  1. 现有弱监督HOI检测依赖外部检测器,计算成本高昂,且易受非交互组合的干扰,导致性能瓶颈。
  2. RegFormer利用空间定位信号指导推理,学习局部交互线索,从而区分人、物体及其交互。
  3. 实验表明,RegFormer能有效学习空间线索,高效运行,性能可与全监督模型媲美,且具备迁移能力。

📝 摘要(中文)

弱监督人-物交互(HOI)检测对于可扩展的场景理解至关重要,因为它仅从图像级别的标注中学习交互。由于缺乏定位信号,先前的工作通常依赖于外部对象检测器来生成候选对,然后通过成对推理来推断它们的交互。然而,由于枚举大量实例对所产生的大量计算成本,这种框架通常难以扩展。此外,它还受到非交互组合产生的假阳性的影响,这阻碍了准确的实例级HOI推理。为了解决这些问题,我们引入了关系建模Transformer (RegFormer),这是一个通用的交互识别模块,用于高效和准确的HOI推理。在图像级监督下,RegFormer利用空间定位信号作为推理过程的指导,并促进局部感知交互学习。通过学习局部交互线索,我们的模块区分人、物体及其交互,从而无需额外训练即可实现从图像级交互推理到精确高效的实例级推理的直接迁移。我们广泛的实验和分析表明,RegFormer有效地学习了用于实例级交互推理的空间线索,高效运行,甚至实现了与完全监督模型相当的性能。我们的代码可在https://github.com/mlvlab/RegFormer 获得。

🔬 方法详解

问题定义:论文旨在解决弱监督HOI检测中,由于缺乏定位信息,依赖外部检测器导致计算量大、易受非交互对象对干扰的问题。现有方法难以在效率和精度之间取得平衡,限制了其在实际场景中的应用。

核心思路:论文的核心思路是利用Transformer学习人与物体之间的关系,并引入空间定位信息作为指导,从而在图像级别进行交互推理,并将学习到的知识迁移到实例级别。通过学习局部交互线索,区分人、物体及其交互,减少对外部检测器的依赖。

技术框架:RegFormer的整体框架包含以下几个关键模块:首先,提取图像的视觉特征。然后,利用Transformer模块进行关系建模,该模块以空间定位信息作为引导,学习人与物体之间的交互关系。最后,通过分类器预测HOI类别。整个过程在图像级别进行监督,学习到的知识可以直接迁移到实例级别。

关键创新:RegFormer的关键创新在于其关系建模方式,它将空间定位信息融入到Transformer中,从而能够学习到更具判别性的交互特征。与现有方法相比,RegFormer无需依赖外部检测器进行候选对生成,从而大大降低了计算成本,并减少了非交互对象对的干扰。此外,RegFormer还具有良好的迁移能力,可以将图像级别的知识迁移到实例级别。

关键设计:RegFormer的关键设计包括:1) 使用Transformer进行关系建模;2) 引入空间定位信息作为引导,例如使用bounding box的坐标信息;3) 设计合适的损失函数,例如交叉熵损失,以优化HOI分类性能;4) 通过实验选择合适的Transformer层数和注意力头数,以平衡模型复杂度和性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RegFormer在弱监督HOI检测任务上取得了显著的性能提升,在HICO-DET数据集上取得了与全监督模型相当的结果,同时大幅降低了计算成本。实验结果表明,RegFormer能够有效地学习空间线索,区分人、物体及其交互,并且具有良好的迁移能力。与现有方法相比,RegFormer在效率和精度之间取得了更好的平衡。

🎯 应用场景

RegFormer在机器人、自动驾驶、智能监控等领域具有广泛的应用前景。它可以帮助机器人理解人类的行为意图,从而实现更自然的人机交互。在自动驾驶中,它可以用于识别行人与车辆之间的交互,提高安全性。在智能监控中,它可以用于检测异常行为,例如盗窃、打架等,提升安防水平。该研究成果有助于推动场景理解技术的发展,为构建更智能、更安全的社会提供技术支撑。

📄 摘要(原文)

Weakly-supervised Human-Object Interaction (HOI) detection is essential for scalable scene understanding, as it learns interactions from only image-level annotations. Due to the lack of localization signals, prior works typically rely on an external object detector to generate candidate pairs and then infer their interactions through pairwise reasoning. However, this framework often struggles to scale due to the substantial computational cost incurred by enumerating numerous instance pairs. In addition, it suffers from false positives arising from non-interactive combinations, which hinder accurate instance-level HOI reasoning. To address these issues, we introduce Relational Grounding Transformer (RegFormer), a versatile interaction recognition module for efficient and accurate HOI reasoning. Under image-level supervision, RegFormer leverages spatially grounded signals as guidance for the reasoning process and promotes locality-aware interaction learning. By learning localized interaction cues, our module distinguishes humans, objects, and their interactions, enabling direct transfer from image-level interaction reasoning to precise and efficient instance-level reasoning without additional training. Our extensive experiments and analyses demonstrate that RegFormer effectively learns spatial cues for instance-level interaction reasoning, operates with high efficiency, and even achieves performance comparable to fully supervised models. Our code is available at https://github.com/mlvlab/RegFormer.