STORM: Segment, Track, and Object Re-Localization from a Single Image

作者: Yu Deng, Teng Cao, Hikaru Shindo, Jiahong Xue, Quentin Delfosse, Kristian Kersting

分类: cs.CV

发布日期: 2025-11-12 (更新: 2025-12-01)

💡 一句话要点

提出STORM，无需人工标注，实现单图像的物体分割、跟踪和重定位。

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM) 支柱六：视频提取与匹配 (Video Extraction & Matching)

关键词: 6D位姿估计 物体分割 物体跟踪 视觉语言理解 特征匹配

📋 核心要点

现有6D位姿估计方法通常需要预定义的3D模型和首帧手动标注的分割掩码，这耗时费力，且在遮挡或快速运动下性能下降。
STORM结合视觉-语言理解和特征匹配，利用上下文对象描述引导定位，自-交叉注意力机制识别区域，并生成精确掩码和3D模型。
STORM在工业数据集上实现了最先进的精度，并具有实时性，无需额外训练，且具备自动重注册机制以应对跟踪失败。

📝 摘要（中文）

本文提出STORM（Segment, Track, and Object Re-localization from a single iMage），一个开源的、鲁棒的实时6D位姿估计系统，无需人工标注。STORM采用了一种新颖的三阶段流程，结合了视觉-语言理解与特征匹配：上下文对象描述引导定位，自-交叉注意力机制识别候选区域，并生成精确的掩码和3D模型以进行准确的位姿估计。另一个关键创新是自动重注册机制，通过特征相似性监控检测跟踪失败，并从严重的遮挡或快速运动中恢复。STORM在具有多对象遮挡、高速运动和变化光照等挑战性工业数据集上实现了最先进的精度，同时以实时速度运行，无需额外训练。这种无标注方法显著降低了部署开销，为柔性制造和智能质量控制等现代应用提供了实用的解决方案。

🔬 方法详解

问题定义：现有6D位姿估计方法依赖于预定义的3D模型和人工标注的分割掩码，这限制了其在实际工业场景中的应用。人工标注成本高昂，且当物体发生遮挡或快速运动时，基于人工标注的方法容易失效，导致位姿估计精度下降。因此，如何在无需人工标注的情况下，实现鲁棒且实时的6D位姿估计是一个关键问题。

核心思路：STORM的核心思路是利用视觉-语言理解能力，结合特征匹配，实现无需人工标注的物体分割、跟踪和重定位。通过上下文对象描述引导定位，利用自-交叉注意力机制识别候选区域，并生成精确的掩码和3D模型，从而实现准确的位姿估计。此外，STORM还引入了自动重注册机制，以应对跟踪失败的情况。

技术框架：STORM采用三阶段流程：1) 上下文对象描述引导定位：利用视觉-语言模型理解场景中的物体，并根据上下文信息初步定位目标物体。2) 自-交叉注意力机制识别候选区域：利用自-交叉注意力机制，在图像中识别出可能包含目标物体的候选区域。3) 精确掩码和3D模型生成：对候选区域进行分割，生成精确的掩码，并利用掩码和图像信息生成3D模型，用于位姿估计。此外，系统还包含一个自动重注册模块，用于检测跟踪失败并进行恢复。

关键创新：STORM的关键创新在于：1) 无需人工标注：通过视觉-语言理解和特征匹配，实现了无需人工标注的物体分割、跟踪和重定位。2) 自动重注册机制：通过特征相似性监控检测跟踪失败，并从严重的遮挡或快速运动中恢复。3) 三阶段流程：结合上下文信息、注意力机制和3D模型生成，实现了准确且鲁棒的位姿估计。

关键设计：STORM的关键设计包括：1) 视觉-语言模型的选择和训练：选择合适的视觉-语言模型，并针对特定场景进行微调，以提高物体识别和定位的准确性。2) 自-交叉注意力机制的设计：设计有效的自-交叉注意力机制，以准确识别候选区域。3) 损失函数的设计：设计合适的损失函数，用于训练分割网络和3D模型生成网络，以提高分割和3D模型生成的精度。4) 特征相似性监控的阈值设置：设置合适的特征相似性监控阈值，以准确检测跟踪失败。

📊 实验亮点

STORM在具有多对象遮挡、高速运动和变化光照等挑战性工业数据集上实现了最先进的精度，同时以实时速度运行，无需额外训练。具体性能数据未知，但论文强调其在复杂场景下的鲁棒性和实时性，以及无需人工标注的优势，使其在实际应用中具有更高的价值。

🎯 应用场景

STORM具有广泛的应用前景，尤其是在柔性制造和智能质量控制等领域。它可以用于机器人抓取、装配、检测等任务，提高生产效率和自动化水平。此外，STORM还可以应用于增强现实、虚拟现实等领域，为用户提供更自然、更真实的交互体验。未来，STORM有望成为物理AI系统的核心组成部分，推动人工智能技术在工业领域的广泛应用。

📄 摘要（原文）

Accurate 6D pose estimation and tracking are fundamental capabilities for physical AI systems such as robots. However, existing approaches typically require a pre-defined 3D model of the target and rely on a manually annotated segmentation mask in the first frame, which is labor-intensive and leads to reduced performance when faced with occlusions or rapid movement. To address these limitations, we propose STORM (Segment, Track, and Object Re-localization from a single iMage), an open-source robust real-time 6D pose estimation system that requires no manual annotation. STORM employs a novel three-stage pipeline combining vision-language understanding with feature matching: contextual object descriptions guide localization, self-cross-attention mechanisms identify candidate regions, and produce precise masks and 3D models for accurate pose estimation. Another key innovation is our automatic re-registration mechanism that detects tracking failures through feature similarity monitoring and recovers from severe occlusions or rapid motion. STORM achieves state-of-the-art accuracy on challenging industrial datasets featuring multi-object occlusions, high-speed motion, and varying illumination, while operating at real-time speeds without additional training. This annotation-free approach significantly reduces deployment overhead, providing a practical solution for modern applications, such as flexible manufacturing and intelligent quality control.

STORM: Segment, Track, and Object Re-Localization from a Single Image

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册