QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection

作者: Yuxiao Wang, Wolin Liang, Yu Lei, Weiying Xue, Nan Zhuang, Qi Liu

分类: cs.CV, cs.HC

发布日期: 2025-08-12

💡 一句话要点

提出QueryCraft以解决HOI检测中查询初始化不足问题

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction)

关键词: 人-物体交互 变换器 查询初始化 跨模态学习 深度学习 特征蒸馏 智能监控

📋 核心要点

现有DETR基础的HOI检测方法在查询初始化上存在不足，随机初始化的查询缺乏语义信息，导致检测效果不佳。
QueryCraft通过引入ACTOR和PDQD模块，利用语义引导的特征学习来优化查询初始化，从而提升HOI检测的准确性。
在HICO-Det和V-COCO数据集上进行的实验表明，QueryCraft在性能上超越了现有的主流方法，展现出良好的泛化能力。

📝 摘要（中文）

人-物体交互（HOI）检测旨在定位图像中的人-物体对并识别其交互。尽管基于DETR的方法已成为HOI检测的主流框架，但随机初始化的查询缺乏明确的语义，导致检测性能不佳。为了解决这一挑战，我们提出了QueryCraft，这是一种新颖的可插拔HOI检测框架，通过基于变换器的查询初始化结合语义先验和引导特征学习。我们的方法核心是ACTOR（动作感知跨模态变换器），它共同关注视觉区域和文本提示，以提取与动作相关的特征。为了进一步增强对象级查询质量，我们引入了感知蒸馏查询解码器（PDQD），从预训练检测器中提取对象类别意识，以作为对象查询的初始化。大量实验表明，我们的方法在HICO-Det和V-COCO基准上实现了最先进的性能和强大的泛化能力。

🔬 方法详解

问题定义：论文要解决的具体问题是人-物体交互检测中的查询初始化不足，现有方法随机初始化的查询缺乏明确的语义信息，导致检测性能不理想。

核心思路：论文的核心解决思路是通过引入语义先验和引导特征学习，利用变换器进行查询初始化，从而生成更具语义意义的查询表示。

技术框架：整体架构包括两个主要模块：ACTOR和PDQD。ACTOR是一个跨模态变换器，负责提取与动作相关的特征；PDQD则从预训练检测器中蒸馏对象类别意识，作为对象查询的初始化。

关键创新：最重要的技术创新点在于ACTOR模块的设计，它不仅对视觉区域和文本提示进行对齐，还利用语言引导的注意力推断交互语义，生成更具解释性的查询。

关键设计：在设计中，采用了特定的损失函数来优化查询的生成过程，并通过双分支查询初始化策略提升了模型的可解释性和有效性。

📊 实验亮点

在HICO-Det和V-COCO基准上，QueryCraft实现了最先进的性能，相较于现有方法，检测精度提升了X%（具体数值待补充），展现出强大的泛化能力和实用性。

🎯 应用场景

该研究的潜在应用领域包括智能监控、机器人交互和人机协作等场景。通过提高人-物体交互检测的准确性，QueryCraft能够在实际应用中提升系统的智能化水平，促进更自然的人机交互体验。

📄 摘要（原文）

Human-Object Interaction (HOI) detection aims to localize human-object pairs and recognize their interactions in images. Although DETR-based methods have recently emerged as the mainstream framework for HOI detection, they still suffer from a key limitation: Randomly initialized queries lack explicit semantics, leading to suboptimal detection performance. To address this challenge, we propose QueryCraft, a novel plug-and-play HOI detection framework that incorporates semantic priors and guided feature learning through transformer-based query initialization. Central to our approach is \textbf{ACTOR} (\textbf{A}ction-aware \textbf{C}ross-modal \textbf{T}ransf\textbf{OR}mer), a cross-modal Transformer encoder that jointly attends to visual regions and textual prompts to extract action-relevant features. Rather than merely aligning modalities, ACTOR leverages language-guided attention to infer interaction semantics and produce semantically meaningful query representations. To further enhance object-level query quality, we introduce a \textbf{P}erceptual \textbf{D}istilled \textbf{Q}uery \textbf{D}ecoder (\textbf{PDQD}), which distills object category awareness from a pre-trained detector to serve as object query initiation. This dual-branch query initialization enables the model to generate more interpretable and effective queries for HOI detection. Extensive experiments on HICO-Det and V-COCO benchmarks demonstrate that our method achieves state-of-the-art performance and strong generalization. Code will be released upon publication.

QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册