DQEN: Dual Query Enhancement Network for DETR-based HOI Detection
作者: Zhehao Li, Chong Wang, Yi Chen, Yinghao Lu, Jiangbo Qian, Jiong Wang, Jiafei Wu
分类: cs.CV
发布日期: 2025-08-26
🔗 代码/项目: GITHUB
💡 一句话要点
提出双查询增强网络以解决DETR基础的HOI检测问题
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 人-物体交互 DETR 查询增强 深度学习 计算机视觉 语义融合 模型优化
📋 核心要点
- 现有DETR基础的HOI检测方法依赖随机初始化的查询,导致模型对人-物体交互的表示模糊,影响检测效果。
- 提出双查询增强网络(DQEN),通过对象感知特征增强对象查询,并利用交互语义融合模块提升交互查询的初始化。
- 在HICO-Det和V-COCO数据集上,DQEN方法实现了竞争力的性能,显著提升了HOI检测的准确性。
📝 摘要(中文)
人-物体交互(HOI)检测旨在定位人-物体对并识别其交互。近期,基于DETR的框架在HOI检测中被广泛采用。然而,现有方法通常依赖随机初始化的查询,导致模糊的表示,限制了模型的有效性。为此,本文提出双查询增强网络(DQEN),通过对象感知编码器特征增强对象查询,使模型更有效地关注与物体交互的人类。同时,设计了交互语义融合模块,利用CLIP模型提升HOI候选的语义特征,从而改善交互查询的初始化。实验结果表明,该方法在HICO-Det和V-COCO数据集上表现出色。
🔬 方法详解
问题定义:本文旨在解决DETR基础的HOI检测中查询初始化不佳导致的模糊表示问题,影响模型的检测效果。
核心思路:通过双查询增强网络(DQEN)来增强对象和交互查询,利用对象感知特征和交互语义融合模块,使模型更有效地理解人-物体交互。
技术框架:DQEN的整体架构包括对象查询增强模块、交互语义融合模块和辅助预测单元,分别负责增强对象查询、提升交互查询的初始化和改善交互特征的表示。
关键创新:最重要的创新在于引入对象感知特征和交互语义融合模块,这与传统方法依赖随机查询初始化的方式有本质区别,显著提升了模型的表现。
关键设计:在设计中,采用了特定的损失函数来优化查询的表示,同时在网络结构中引入了辅助预测单元,以增强交互特征的表达能力。通过这些设计,模型能够更好地捕捉人-物体交互的复杂性。
📊 实验亮点
在HICO-Det和V-COCO数据集上,DQEN方法相较于基线模型实现了显著的性能提升,具体表现为在HICO-Det上提高了检测精度,且在V-COCO上也展现出更强的交互理解能力,验证了其有效性。
🎯 应用场景
该研究在智能监控、机器人交互和人机协作等领域具有广泛的应用潜力。通过准确识别和理解人-物体交互,能够提升自动化系统的智能水平,增强人机协作的效率和安全性。未来,该技术可能推动更复杂的交互场景的实现,促进智能设备的普及。
📄 摘要(原文)
Human-Object Interaction (HOI) detection focuses on localizing human-object pairs and recognizing their interactions. Recently, the DETR-based framework has been widely adopted in HOI detection. In DETR-based HOI models, queries with clear meaning are crucial for accurately detecting HOIs. However, prior works have typically relied on randomly initialized queries, leading to vague representations that limit the model's effectiveness. Meanwhile, humans in the HOI categories are fixed, while objects and their interactions are variable. Therefore, we propose a Dual Query Enhancement Network (DQEN) to enhance object and interaction queries. Specifically, object queries are enhanced with object-aware encoder features, enabling the model to focus more effectively on humans interacting with objects in an object-aware way. On the other hand, we design a novel Interaction Semantic Fusion module to exploit the HOI candidates that are promoted by the CLIP model. Semantic features are extracted to enhance the initialization of interaction queries, thereby improving the model's ability to understand interactions. Furthermore, we introduce an Auxiliary Prediction Unit aimed at improving the representation of interaction features. Our proposed method achieves competitive performance on both the HICO-Det and the V-COCO datasets. The source code is available at https://github.com/lzzhhh1019/DQEN.