Cross-View Multi-Modal Segmentation @ Ego-Exo4D Challenges 2025

📄 arXiv: 2506.05856v1 📥 PDF

作者: Yuqian Fu, Runze Wang, Yanwei Fu, Danda Pani Paudel, Luc Van Gool

分类: cs.CV, cs.AI

发布日期: 2025-06-06

备注: The 2nd Price Award of EgoExo4D Relations, Second Joint EgoVis Workshop with CVPR2025, technical report paper is accepted by CVPRW 25

🔗 代码/项目: GITHUB


💡 一句话要点

提出跨视角多模态物体分割方法以解决Ego-Exo4D挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态分割 物体对应 跨视角对齐 视觉掩膜 文本描述 Ego-Exo4D 深度学习

📋 核心要点

  1. 现有方法在处理自我视角与外部视角之间的物体对应任务时,面临视觉领域差距和物体定位不准确的问题。
  2. 论文提出了一种多模态条件融合模块,结合视觉信息和文本描述来增强物体的定位精度,同时引入跨视角物体对齐模块以提高鲁棒性。
  3. 实验结果显示,所提方法在Ego-Exo4D物体对应基准测试中取得了第二名的优异成绩,验证了其有效性和优势。

📝 摘要(中文)

在本报告中,我们提出了一种跨视角多模态物体分割方法,旨在解决Ego-Exo4D对应挑战中的物体对应任务。给定来自一个视角(例如自我视角)的物体查询,目标是预测在另一个视角(例如外部视角)中的对应物体掩膜。为了解决这一任务,我们提出了一种多模态条件融合模块,通过利用视觉掩膜和文本描述作为分割条件来增强物体定位。此外,为了应对自我视角和外部视角之间的视觉领域差距,我们引入了跨视角物体对齐模块,强制实现视角间的物体级一致性,从而提高模型对视角变化的鲁棒性。我们的方法在大规模Ego-Exo4D物体对应基准测试中排名第二。代码将发布在https://github.com/lovelyqian/ObjectRelator。

🔬 方法详解

问题定义:本论文旨在解决Ego-Exo4D挑战中的物体对应任务,现有方法在自我视角与外部视角之间存在视觉领域差距,导致物体定位不准确。

核心思路:我们提出了一种多模态条件融合模块,通过结合视觉掩膜和文本描述来增强物体的定位能力,同时引入跨视角物体对齐模块以确保不同视角间的物体一致性。

技术框架:整体架构包括两个主要模块:多模态条件融合模块和跨视角物体对齐模块。前者用于增强物体定位,后者用于解决视角间的一致性问题。

关键创新:最重要的技术创新在于引入了多模态条件融合和跨视角对齐的结合,显著提高了模型在不同视角下的鲁棒性,与现有方法相比,能够更好地处理视角变化带来的挑战。

关键设计:在模型设计中,我们采用了特定的损失函数来优化物体掩膜的准确性,并通过调整网络结构以适应多模态输入,确保模型的有效性和高效性。

📊 实验亮点

在Ego-Exo4D物体对应基准测试中,我们的方法取得了第二名的成绩,展示了其在物体分割任务中的优越性能。与基线方法相比,模型在物体定位精度上有显著提升,验证了多模态条件融合和跨视角对齐的有效性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人视觉和增强现实等场景。在这些领域中,准确的物体识别和定位对于实现安全和高效的操作至关重要。未来,该方法可能推动多模态学习和跨视角理解的进一步发展。

📄 摘要(原文)

In this report, we present a cross-view multi-modal object segmentation approach for the object correspondence task in the Ego-Exo4D Correspondence Challenges 2025. Given object queries from one perspective (e.g., ego view), the goal is to predict the corresponding object masks in another perspective (e.g., exo view). To tackle this task, we propose a multimodal condition fusion module that enhances object localization by leveraging both visual masks and textual descriptions as segmentation conditions. Furthermore, to address the visual domain gap between ego and exo views, we introduce a cross-view object alignment module that enforces object-level consistency across perspectives, thereby improving the model's robustness to viewpoint changes. Our proposed method ranked second on the leaderboard of the large-scale Ego-Exo4D object correspondence benchmark. Code will be made available at https://github.com/lovelyqian/ObjectRelator.