EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

📄 arXiv: 2603.06561v1 📥 PDF

作者: Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel

分类: cs.CV

发布日期: 2026-03-06

备注: preprint


💡 一句话要点

EgoReasoner:通过任务自适应结构化思考学习第一人称视角下的4D推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 第一人称视角 4D推理 任务自适应 思维链 强化学习

📋 核心要点

  1. 现有方法在处理第一人称视角下的复杂4D推理任务时,缺乏针对特定任务的认知结构和推理原语。
  2. EgoReasoner通过任务自适应的思考模板和奖励函数,将推理过程与任务的认知结构对齐,从而提升性能。
  3. 实验结果表明,EgoReasoner在HD-EPIC基准上显著优于现有方法,证明了其有效性。

📝 摘要(中文)

由于环境的动态4D特性,第一人称视角视频理解本质上是复杂的,其中相机运动和物体位移需要不断重新评估空间关系。本文针对一系列未被充分探索的第一人称4D推理任务,包括固定装置交互计数、视点相关的固定装置位置、物体移动轨迹跟踪和静止物体定位,这些任务需要根本不同的认知操作:空间锚定、时间跟踪和持续时间推理。我们观察到,这些结构性差异使得任务无关的方法不足:通用的思维链方法缺乏任务适当的推理原语,而统一的强化学习会积极地破坏空间任务的性能。为了解决这个问题,我们提出了EgoReasoner,这是一个两阶段框架,它将推理支架和奖励信号与每个任务的认知结构对齐。在第一阶段,任务自适应思考模板指导结构化CoT轨迹的合成,通过监督微调教导模型跨任务类型自适应地推理。在第二阶段,任务感知的奖励函数验证实体 grounding、时间对齐和任务自适应的逻辑一致性,通过使用GRPO的强化微调选择性地加强每个推理路径。我们仅在16K样本上训练的3B参数模型在具有挑战性的HD-EPIC基准上实现了37.5%的平均准确率,超过了Qwen2.5-VL-7B(25.7%)超过10个点。

🔬 方法详解

问题定义:论文旨在解决第一人称视角下复杂的4D推理任务,例如固定装置交互计数、物体移动轨迹跟踪等。现有方法,如通用的思维链(Chain-of-Thought)方法,缺乏针对特定任务的推理能力,而统一的强化学习方法可能会损害空间任务的性能。现有方法无法有效处理不同任务所需的空间锚定、时间跟踪和持续时间推理等认知操作。

核心思路:论文的核心思路是使推理过程与任务的认知结构对齐。具体来说,通过任务自适应的思考模板(Task-Adaptive Thinking Templates)来指导模型进行结构化的推理,并使用任务感知的奖励函数来强化推理过程中的实体 grounding、时间对齐和逻辑一致性。这种方法允许模型根据不同的任务类型进行自适应推理。

技术框架:EgoReasoner是一个两阶段框架。第一阶段是任务自适应思考模板引导的监督微调,用于合成结构化的CoT轨迹,使模型能够跨任务类型自适应地推理。第二阶段是任务感知的奖励函数引导的强化微调,使用GRPO算法选择性地加强每个推理路径,验证实体 grounding、时间对齐和任务自适应的逻辑一致性。

关键创新:该论文的关键创新在于提出了一个任务自适应的推理框架,该框架能够根据不同任务的认知结构调整推理过程。与传统的任务无关方法相比,EgoReasoner能够更好地处理第一人称视角下复杂的4D推理任务。通过任务自适应的思考模板和奖励函数,EgoReasoner能够有效地学习和执行各种认知操作,例如空间锚定、时间跟踪和持续时间推理。

关键设计:论文使用了3B参数的模型,并在16K样本上进行了训练。在第一阶段,通过监督微调来训练模型使用任务自适应的思考模板生成CoT轨迹。在第二阶段,使用GRPO算法进行强化微调,其中奖励函数是任务感知的,用于验证实体 grounding、时间对齐和逻辑一致性。具体的网络结构和损失函数细节在论文中可能有所描述,但摘要中未明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EgoReasoner在HD-EPIC基准上取得了显著的性能提升,平均准确率达到37.5%,超过了Qwen2.5-VL-7B(25.7%)超过10个百分点。该结果表明,通过任务自适应的结构化思考,可以有效提升第一人称视角下的4D推理能力。即使在相对较小的训练数据集(16K样本)上,EgoReasoner也能取得优异的性能。

🎯 应用场景

EgoReasoner可应用于机器人导航、智能助手、虚拟现实/增强现实等领域。例如,机器人可以利用该技术理解人类的指令并执行复杂的任务,智能助手可以更好地理解用户的意图并提供个性化的服务,VR/AR应用可以提供更逼真的交互体验。该研究有助于提升机器对人类行为和环境的理解能力,促进人机协作。

📄 摘要(原文)

Egocentric video understanding is inherently complex due to the dynamic 4D nature of the environment, where camera motion and object displacements necessitate a continuous re-evaluation of spatial relations. In this work, we target a suite of under-explored egocentric 4D reasoning tasks, including fixture interaction counting, viewpoint-relative fixture location, object movement itinerary tracking, and stationary object localization, that require fundamentally different cognitive operations: spatial anchoring, temporal tracking, and duration reasoning. We observe that these structural differences make task-agnostic approaches insufficient: generic Chain-of-Thought methods lack task-appropriate reasoning primitives, and uniform reinforcement learning actively destabilizes performance on spatial tasks. To address this, we propose EgoReasoner, a two-stage framework that aligns both the reasoning scaffold and the reward signal to each task's cognitive structure. In the first stage, Task-Adaptive Thinking Templates guide the synthesis of structured CoT traces that teach the model to reason adaptively across task types via supervised fine-tuning. In the second stage, task-aware reward functions verify entity grounding, temporal alignment, and task-adaptive logical consistency, selectively strengthening each reasoning pathway via reinforcement fine-tuning with GRPO. Our 3B-parameter model, trained on only 16K samples, achieves 37.5% average accuracy on the challenging HD-EPIC benchmark, surpassing Qwen2.5-VL-7B (25.7%) by over 10 points.