GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection
作者: Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang
分类: cs.CV
发布日期: 2026-03-06
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
GenHOI:通过时序平衡和空间选择的对象注入,实现对象一致的手部-物体交互视频生成。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 手部-物体交互 视频生成 对象一致性 时序建模 空间注意力 数字人 视频编辑
📋 核心要点
- 现有HOI重演方法泛化性差,一体化视频编辑模型在HOI特定问题(如对象一致性)上表现不佳。
- GenHOI通过时序平衡和空间选择的对象注入,增强预训练视频生成模型,提升HOI视频生成效果。
- 实验表明,GenHOI在未见过的野外场景中,显著优于现有HOI重演和一体化视频编辑方法。
📝 摘要(中文)
手部-物体交互(HOI)仍然是数字人视频合成中的一个核心挑战,模型必须生成物理上合理的接触并保持跨帧的对象一致性。尽管最近的HOI重演方法取得了一些进展,但它们通常在领域内训练和评估,无法推广到复杂的、野外场景。相比之下,一体化视频编辑模型表现出更广泛的鲁棒性,但仍然难以解决HOI特定的问题,例如不一致的对象外观。在本文中,我们提出了GenHOI,这是一种对预训练视频生成模型的轻量级增强,它以时间平衡和空间选择的方式注入参考对象信息。对于时间平衡,我们提出了Head-Sliding RoPE,它为参考令牌分配特定于头的时序偏移,从而将它们的影响均匀地分布在各个帧上,并减轻3D RoPE的时序衰减,以提高长程对象一致性。对于空间选择性,我们设计了一个两级空间注意力门,将对象条件注意力集中在HOI区域,并自适应地缩放其强度,从而在保持背景真实感的同时提高交互保真度。在未见过的野外场景中进行的大量定性和定量评估表明,GenHOI明显优于最先进的HOI重演和一体化视频编辑方法。
🔬 方法详解
问题定义:论文旨在解决手部-物体交互(HOI)视频生成中,对象一致性难以保持的问题。现有HOI重演方法通常在特定领域内训练,泛化能力不足;而通用视频编辑模型在处理HOI任务时,容易出现对象外观不一致等问题。这些问题限制了HOI技术在实际场景中的应用。
核心思路:GenHOI的核心思路是通过向预训练的视频生成模型注入参考对象信息,并采用时序平衡和空间选择机制来保证生成视频中对象的一致性和交互的真实性。通过这种方式,模型可以更好地理解和模拟手与物体之间的复杂关系,从而生成更逼真的HOI视频。
技术框架:GenHOI建立在预训练的视频生成模型之上,主要包含两个关键模块:Head-Sliding RoPE和两级空间注意力门。Head-Sliding RoPE负责对参考对象信息进行时序平衡,确保其在整个视频序列中保持一致的影响;两级空间注意力门则负责对参考对象信息进行空间选择,使其能够集中在HOI区域,并自适应地调整强度,从而在保持背景真实感的同时,提高交互的保真度。
关键创新:GenHOI的关键创新在于其时序平衡和空间选择的对象注入方法。Head-Sliding RoPE通过为参考令牌分配特定于头的时序偏移,解决了传统3D RoPE的时序衰减问题,从而提高了长程对象一致性。两级空间注意力门则通过自适应地调整对象条件注意力的强度,实现了HOI区域的精细化处理,从而提高了交互的真实感。
关键设计:Head-Sliding RoPE的关键设计在于为每个注意力头分配不同的时间偏移量,从而使参考对象信息的影响能够均匀地分布在整个视频序列中。两级空间注意力门的关键设计在于使用两个级别的注意力机制,分别关注全局空间信息和HOI区域的局部信息,并使用一个自适应的缩放因子来平衡两者之间的关系。损失函数方面,论文可能采用了对抗损失、重建损失等,以保证生成视频的质量和真实性(具体损失函数细节未知)。
🖼️ 关键图片
📊 实验亮点
GenHOI在未见过的野外场景中进行了广泛的定性和定量评估,结果表明其显著优于最先进的HOI重演和一体化视频编辑方法。具体的性能数据(例如在特定指标上的提升百分比)在论文中给出(具体数值未知),但总体而言,GenHOI在对象一致性和交互真实性方面都取得了显著的提升。
🎯 应用场景
GenHOI技术可应用于数字人内容创作、虚拟现实/增强现实(VR/AR)交互、游戏开发、机器人控制等领域。例如,可以用于生成逼真的虚拟人物与物体交互的视频内容,提升VR/AR应用的沉浸感,或用于训练机器人进行复杂的手部操作。该研究有助于推动人机交互技术的发展,并为相关产业带来新的机遇。
📄 摘要(原文)
Hand-Object Interaction (HOI) remains a core challenge in digital human video synthesis, where models must generate physically plausible contact and preserve object identity across frames. Although recent HOI reenactment approaches have achieved progress, they are typically trained and evaluated in-domain and fail to generalize to complex, in-the-wild scenarios. In contrast, all-in-one video editing models exhibit broader robustness but still struggle with HOI-specific issues such as inconsistent object appearance. In this paper, we present GenHOI, a lightweight augmentation to pretrained video generation models that injects reference-object information in a temporally balanced and spatially selective manner. For temporal balancing, we propose Head-Sliding RoPE, which assigns head-specific temporal offsets to reference tokens, distributing their influence evenly across frames and mitigating the temporal decay of 3D RoPE to improve long-range object consistency. For spatial selectivity, we design a two-level spatial attention gate that concentrates object-conditioned attention on HOI regions and adaptively scales its strength, preserving background realism while enhancing interaction fidelity. Extensive qualitative and quantitative evaluations on unseen, in-the-wild scenes demonstrate that GenHOI significantly outperforms state-of-the-art HOI reenactment and all-in-one video editing methods. Project page: https://xuanhuang0.github.io/GenHOI/