ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data

📄 arXiv: 2604.01082v1 📥 PDF

作者: Yaoqin Ye, Yiteng Xu, Qin Sun, Xinge Zhu, Yujing Sun, Yuexin Ma

分类: cs.CV, cs.GR

发布日期: 2026-04-01

备注: accepted by CVPR 2026, project page: https://4dvlab.github.io/project_page/remogen/


💡 一句话要点

ReMoGen:通过模块化学习和多样化数据,实现实时人机交互反应生成。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人机交互 运动生成 模块化学习 领域泛化 实时性 运动预测 行为预测

📋 核心要点

  1. 现有方法难以处理交互数据分散在异构领域以及实时性要求高的交互反应生成任务。
  2. ReMoGen通过学习通用运动先验并使用Meta-Interaction模块适应特定交互领域,实现跨领域泛化。
  3. ReMoGen采用分段生成和逐帧细化模块,在保证响应速度的同时,提升了生成运动的时间一致性。

📝 摘要(中文)

本文提出ReMoGen,一个用于实时人机交互反应生成的模块化学习框架。现实环境中,人类行为本质上是交互性的,个体的动作受到周围个体和场景的影响。该能力对虚拟化身、交互式动画和人机协作至关重要。本研究针对实时人机交互反应生成,即从动态多源线索(包括其他人的动作、场景几何以及可选的高级语义输入)生成自我未来的动作。该任务极具挑战性,因为交互数据有限且分散在异构的单人、人-人以及人-场景领域。同时,需要产生低延迟且高保真的运动响应。ReMoGen利用从大规模单人运动数据集学习到的通用运动先验,并通过独立训练的Meta-Interaction模块将其适应于目标交互领域,从而在数据稀缺和异构监督下实现鲁棒的泛化。为了支持响应式在线交互,ReMoGen执行分段生成,并结合轻量级的逐帧分段细化模块,该模块在帧级别合并新观察到的线索,从而提高响应性和时间一致性,而无需昂贵的完整序列推理。广泛的实验表明,ReMoGen在人-人、人-场景和混合模式交互设置中产生高质量、连贯且响应迅速的反应,同时有效地泛化到各种交互场景。

🔬 方法详解

问题定义:论文旨在解决实时人机交互场景下,如何根据多源信息(包括其他人的动作、场景几何等)生成高质量、低延迟的自我运动反应的问题。现有方法通常难以处理数据稀缺、异构以及实时性要求高的挑战。

核心思路:论文的核心思路是利用模块化学习框架,将运动生成过程解耦为通用运动先验学习和特定交互领域适应两个阶段。通用运动先验从大规模单人运动数据集中学习,提供基础的运动模式。特定交互领域适应通过Meta-Interaction模块实现,该模块针对不同交互场景进行独立训练,从而实现跨领域泛化。

技术框架:ReMoGen框架包含以下主要模块:1) 通用运动先验模块:从大规模单人运动数据集中学习运动先验知识。2) Meta-Interaction模块:针对不同交互场景(人-人、人-场景等)进行独立训练,用于将通用运动先验适应到特定交互领域。3) 分段生成模块:将输入序列分割成多个段,并逐段生成运动反应,以降低计算复杂度。4) 逐帧分段细化模块:在帧级别合并新观察到的线索,用于提高响应速度和时间一致性。

关键创新:ReMoGen的关键创新在于其模块化学习框架,该框架能够有效地利用异构数据,并实现跨领域泛化。此外,逐帧分段细化模块能够在保证响应速度的同时,提高生成运动的时间一致性。

关键设计:Meta-Interaction模块的设计允许针对不同的交互类型进行独立训练,从而更好地适应特定领域的特征。分段生成模块通过减少每次推理的序列长度来降低计算复杂度,而逐帧分段细化模块则通过在帧级别融合新信息来提高响应速度和时间一致性。具体的损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ReMoGen在人-人、人-场景和混合模式交互设置中均能生成高质量、连贯且响应迅速的反应。具体性能数据和对比基线在摘要中未提及,属于未知信息。但论文强调ReMoGen能够有效地泛化到各种交互场景,表明其具有良好的鲁棒性和适应性。

🎯 应用场景

ReMoGen具有广泛的应用前景,包括虚拟化身、交互式动画、人机协作、游戏AI等领域。它可以用于创建更逼真、更具交互性的虚拟角色,提升人机协作的效率和安全性,并为游戏AI提供更智能的运动控制能力。该研究的成果有助于推动人机交互技术的发展,并为相关应用带来新的可能性。

📄 摘要(原文)

Human behaviors in real-world environments are inherently interactive, with an individual's motion shaped by surrounding agents and the scene. Such capabilities are essential for applications in virtual avatars, interactive animation, and human-robot collaboration. We target real-time human interaction-to-reaction generation, which generates the ego's future motion from dynamic multi-source cues, including others' actions, scene geometry, and optional high-level semantic inputs. This task is fundamentally challenging due to (i) limited and fragmented interaction data distributed across heterogeneous single-person, human-human, and human-scene domains, and (ii) the need to produce low-latency yet high-fidelity motion responses during continuous online interaction. To address these challenges, we propose ReMoGen (Reaction Motion Generation), a modular learning framework for real-time interaction-to-reaction generation. ReMoGen leverages a universal motion prior learned from large-scale single-person motion datasets and adapts it to target interaction domains through independently trained Meta-Interaction modules, enabling robust generalization under data-scarce and heterogeneous supervision. To support responsive online interaction, ReMoGen performs segment-level generation together with a lightweight Frame-wise Segment Refinement module that incorporates newly observed cues at the frame level, improving both responsiveness and temporal coherence without expensive full-sequence inference. Extensive experiments across human-human, human-scene, and mixed-modality interaction settings show that ReMoGen produces high-quality, coherent, and responsive reactions, while generalizing effectively across diverse interaction scenarios.