EgoSim: Egocentric World Simulator for Embodied Interaction Generation

📄 arXiv: 2604.01001v1 📥 PDF

作者: Jinkun Hao, Mingda Jia, Ruiyan Wang, Xihui Liu, Ran Yi, Lizhuang Ma, Jiangmiao Pang, Xudong Xu

分类: cs.CV, cs.AI

发布日期: 2026-04-01

备注: Project Page: egosimulator.github.io


💡 一句话要点

EgoSim:用于具身交互生成的第一人称视角世界模拟器

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting)

关键词: 第一人称视角模拟 具身交互 3D场景重建 状态更新 机器人操作 几何感知 动作感知

📋 核心要点

  1. 现有第一人称视角模拟器缺乏3D场景的显式建模,导致视角变化时场景结构不稳定,限制了交互模拟的真实性。
  2. EgoSim通过建模可更新的3D世界状态,并结合几何与动作信息,实现空间一致的具身交互生成和场景状态更新。
  3. EgoSim利用从大规模单目视频中提取的数据进行训练,并通过EgoCap系统实现低成本的真实世界数据采集,提升了模拟器的泛化能力。

📝 摘要(中文)

本文提出EgoSim,一个闭环的第一人称视角世界模拟器,能够生成空间一致的交互视频,并持续更新底层3D场景状态以进行连续模拟。现有的第一人称视角模拟器要么缺乏显式的3D基础,导致视角变化时出现结构漂移,要么将场景视为静态,无法在多阶段交互中更新世界状态。EgoSim通过将3D场景建模为可更新的世界状态来解决这两个限制。我们通过一个几何-动作感知的观察模拟模型生成具身交互,并通过一个交互感知的状态更新模块实现空间一致性。为了克服密集对齐的场景-交互训练对难以获取所带来的关键数据瓶颈,我们设计了一个可扩展的流水线,从大规模单目第一人称视角视频中提取静态点云、相机轨迹和具身动作。我们进一步引入EgoCap,一个能够以低成本使用未校准智能手机进行真实世界数据收集的捕获系统。大量实验表明,EgoSim在视觉质量、空间一致性和对复杂场景和真实灵巧交互的泛化方面显著优于现有方法,同时支持跨具身转移到机器人操作。

🔬 方法详解

问题定义:现有第一人称视角模拟器主要存在两个问题:一是缺乏显式的3D场景建模,导致在视角变化时场景结构发生漂移;二是将场景视为静态的,无法在多阶段交互中更新场景状态,从而限制了模拟的真实性和连续性。这些问题阻碍了具身智能体在复杂环境中的学习和交互。

核心思路:EgoSim的核心思路是将3D场景建模为可更新的世界状态,并利用几何和动作信息来生成空间一致的交互视频。通过显式地维护和更新场景的3D结构,EgoSim能够克服现有模拟器的结构漂移问题,并支持多阶段交互的模拟。

技术框架:EgoSim的整体框架包含以下几个主要模块:1) Geometry-action-aware Observation Simulation model:该模块负责生成具身交互,利用几何和动作信息来预测观察结果。2) Interaction-aware State Updating module:该模块负责根据交互更新场景状态,保持空间一致性。3) Data Pipeline:该流水线从大规模单目第一人称视角视频中提取静态点云、相机轨迹和具身动作,用于训练模型。4) EgoCap:一个低成本的真实世界数据采集系统,使用未校准的智能手机。

关键创新:EgoSim的关键创新在于:1) 可更新的3D世界状态建模:通过显式地维护和更新场景的3D结构,解决了现有模拟器的结构漂移问题。2) 几何-动作感知的观察模拟:利用几何和动作信息来生成更真实的交互视频。3) 交互感知的状态更新:根据交互更新场景状态,保持空间一致性。4) 可扩展的数据流水线和低成本的数据采集系统:克服了数据瓶颈,提高了模型的泛化能力。

关键设计:EgoSim的关键设计包括:1) 使用点云来表示3D场景状态。2) 设计了特定的网络结构来融合几何和动作信息,用于观察模拟和状态更新。3) 采用了合适的损失函数来保证空间一致性和视觉质量。4) 数据流水线的设计保证了能够从大规模单目视频中提取高质量的训练数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EgoSim在视觉质量、空间一致性和泛化能力方面显著优于现有方法。实验结果表明,EgoSim能够生成更真实的交互视频,并保持场景的空间一致性。此外,EgoSim还能够泛化到复杂的场景和真实的灵巧交互中,并支持跨具身转移到机器人操作。EgoSim在各项指标上均取得了显著提升,证明了其有效性和优越性。

🎯 应用场景

EgoSim具有广泛的应用前景,包括:1) 训练具身智能体,使其能够在复杂环境中进行导航、操作和交互。2) 机器人操作:支持跨具身转移到机器人操作,提升机器人的操作能力。3) 虚拟现实和增强现实:生成更真实的交互体验。4) 自动驾驶:模拟驾驶场景,用于训练自动驾驶系统。EgoSim的出现将推动具身智能和机器人技术的发展。

📄 摘要(原文)

We introduce EgoSim, a closed-loop egocentric world simulator that generates spatially consistent interaction videos and persistently updates the underlying 3D scene state for continuous simulation. Existing egocentric simulators either lack explicit 3D grounding, causing structural drift under viewpoint changes, or treat the scene as static, failing to update world states across multi-stage interactions. EgoSim addresses both limitations by modeling 3D scenes as updatable world states. We generate embodiment interactions via a Geometry-action-aware Observation Simulation model, with spatial consistency from an Interaction-aware State Updating module. To overcome the critical data bottleneck posed by the difficulty in acquiring densely aligned scene-interaction training pairs, we design a scalable pipeline that extracts static point clouds, camera trajectories, and embodiment actions from in-the-wild large-scale monocular egocentric videos. We further introduce EgoCap, a capture system that enables low-cost real-world data collection with uncalibrated smartphones. Extensive experiments demonstrate that EgoSim significantly outperforms existing methods in terms of visual quality, spatial consistency, and generalization to complex scenes and in-the-wild dexterous interactions, while supporting cross-embodiment transfer to robotic manipulation. Codes and datasets will be open soon. The project page is at egosimulator.github.io.