EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

作者: Fangrui Zhu, Yunfeng Xi, Jianmo Ni, Mu Cai, Boqing Gong, Long Zhao, Chen Qu, Ian Miao, Yi Li, Cheng Zhong, Huaizu Jiang, Shwetak Patel

分类: cs.CV

发布日期: 2026-03-06

备注: preprint

💡 一句话要点

EgoReasoner：通过任务自适应结构化思考学习第一人称视角下的4D推理

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 第一人称视角 4D推理 任务自适应 思维链 强化学习

📋 核心要点

现有方法在处理第一人称视角下的复杂4D推理任务时，缺乏针对特定任务的认知结构和推理原语。
EgoReasoner通过任务自适应的思考模板和奖励函数，将推理过程与任务的认知结构对齐，从而提升性能。
实验结果表明，EgoReasoner在HD-EPIC基准上显著优于现有方法，证明了其有效性。

📝 摘要（中文）

由于环境的动态4D特性，第一人称视角视频理解本质上是复杂的，其中相机运动和物体位移需要不断重新评估空间关系。本文针对一系列未被充分探索的第一人称4D推理任务，包括固定装置交互计数、视点相关的固定装置位置、物体移动轨迹跟踪和静止物体定位，这些任务需要根本不同的认知操作：空间锚定、时间跟踪和持续时间推理。我们观察到，这些结构性差异使得任务无关的方法不足：通用的思维链方法缺乏任务适当的推理原语，而统一的强化学习会积极地破坏空间任务的性能。为了解决这个问题，我们提出了EgoReasoner，这是一个两阶段框架，它将推理支架和奖励信号与每个任务的认知结构对齐。在第一阶段，任务自适应思考模板指导结构化CoT轨迹的合成，通过监督微调教导模型跨任务类型自适应地推理。在第二阶段，任务感知的奖励函数验证实体 grounding、时间对齐和任务自适应的逻辑一致性，通过使用GRPO的强化微调选择性地加强每个推理路径。我们仅在16K样本上训练的3B参数模型在具有挑战性的HD-EPIC基准上实现了37.5%的平均准确率，超过了Qwen2.5-VL-7B（25.7%）超过10个点。

🔬 方法详解

问题定义：论文旨在解决第一人称视角下复杂的4D推理任务，例如固定装置交互计数、物体移动轨迹跟踪等。现有方法，如通用的思维链（Chain-of-Thought）方法，缺乏针对特定任务的推理能力，而统一的强化学习方法可能会损害空间任务的性能。现有方法无法有效处理不同任务所需的空间锚定、时间跟踪和持续时间推理等认知操作。

核心思路：论文的核心思路是使推理过程与任务的认知结构对齐。具体来说，通过任务自适应的思考模板（Task-Adaptive Thinking Templates）来指导模型进行结构化的推理，并使用任务感知的奖励函数来强化推理过程中的实体 grounding、时间对齐和逻辑一致性。这种方法允许模型根据不同的任务类型进行自适应推理。

技术框架：EgoReasoner是一个两阶段框架。第一阶段是任务自适应思考模板引导的监督微调，用于合成结构化的CoT轨迹，使模型能够跨任务类型自适应地推理。第二阶段是任务感知的奖励函数引导的强化微调，使用GRPO算法选择性地加强每个推理路径，验证实体 grounding、时间对齐和任务自适应的逻辑一致性。

关键创新：该论文的关键创新在于提出了一个任务自适应的推理框架，该框架能够根据不同任务的认知结构调整推理过程。与传统的任务无关方法相比，EgoReasoner能够更好地处理第一人称视角下复杂的4D推理任务。通过任务自适应的思考模板和奖励函数，EgoReasoner能够有效地学习和执行各种认知操作，例如空间锚定、时间跟踪和持续时间推理。

关键设计：论文使用了3B参数的模型，并在16K样本上进行了训练。在第一阶段，通过监督微调来训练模型使用任务自适应的思考模板生成CoT轨迹。在第二阶段，使用GRPO算法进行强化微调，其中奖励函数是任务感知的，用于验证实体 grounding、时间对齐和逻辑一致性。具体的网络结构和损失函数细节在论文中可能有所描述，但摘要中未明确提及。

🖼️ 关键图片

📊 实验亮点

EgoReasoner在HD-EPIC基准上取得了显著的性能提升，平均准确率达到37.5%，超过了Qwen2.5-VL-7B（25.7%）超过10个百分点。该结果表明，通过任务自适应的结构化思考，可以有效提升第一人称视角下的4D推理能力。即使在相对较小的训练数据集（16K样本）上，EgoReasoner也能取得优异的性能。

🎯 应用场景

EgoReasoner可应用于机器人导航、智能助手、虚拟现实/增强现实等领域。例如，机器人可以利用该技术理解人类的指令并执行复杂的任务，智能助手可以更好地理解用户的意图并提供个性化的服务，VR/AR应用可以提供更逼真的交互体验。该研究有助于提升机器对人类行为和环境的理解能力，促进人机协作。

📄 摘要（原文）

Egocentric video understanding is inherently complex due to the dynamic 4D nature of the environment, where camera motion and object displacements necessitate a continuous re-evaluation of spatial relations. In this work, we target a suite of under-explored egocentric 4D reasoning tasks, including fixture interaction counting, viewpoint-relative fixture location, object movement itinerary tracking, and stationary object localization, that require fundamentally different cognitive operations: spatial anchoring, temporal tracking, and duration reasoning. We observe that these structural differences make task-agnostic approaches insufficient: generic Chain-of-Thought methods lack task-appropriate reasoning primitives, and uniform reinforcement learning actively destabilizes performance on spatial tasks. To address this, we propose EgoReasoner, a two-stage framework that aligns both the reasoning scaffold and the reward signal to each task's cognitive structure. In the first stage, Task-Adaptive Thinking Templates guide the synthesis of structured CoT traces that teach the model to reason adaptively across task types via supervised fine-tuning. In the second stage, task-aware reward functions verify entity grounding, temporal alignment, and task-adaptive logical consistency, selectively strengthening each reasoning pathway via reinforcement fine-tuning with GRPO. Our 3B-parameter model, trained on only 16K samples, achieves 37.5% average accuracy on the challenging HD-EPIC benchmark, surpassing Qwen2.5-VL-7B (25.7%) by over 10 points.

EgoReasoner: Learning Egocentric 4D Reasoning via Task-Adaptive Structured Thinking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理