STORM: Segment, Track, and Object Re-Localization from a Single Image

📄 arXiv: 2511.09771v2 📥 PDF

作者: Yu Deng, Teng Cao, Hikaru Shindo, Jiahong Xue, Quentin Delfosse, Kristian Kersting

分类: cs.CV

发布日期: 2025-11-12 (更新: 2025-12-01)


💡 一句话要点

提出STORM,无需人工标注,实现单图像的物体分割、跟踪和重定位。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱六:视频提取与匹配 (Video Extraction & Matching)

关键词: 6D位姿估计 物体分割 物体跟踪 视觉语言理解 特征匹配

📋 核心要点

  1. 现有6D位姿估计方法通常需要预定义的3D模型和首帧手动标注的分割掩码,这耗时费力,且在遮挡或快速运动下性能下降。
  2. STORM结合视觉-语言理解和特征匹配,利用上下文对象描述引导定位,自-交叉注意力机制识别区域,并生成精确掩码和3D模型。
  3. STORM在工业数据集上实现了最先进的精度,并具有实时性,无需额外训练,且具备自动重注册机制以应对跟踪失败。

📝 摘要(中文)

本文提出STORM(Segment, Track, and Object Re-localization from a single iMage),一个开源的、鲁棒的实时6D位姿估计系统,无需人工标注。STORM采用了一种新颖的三阶段流程,结合了视觉-语言理解与特征匹配:上下文对象描述引导定位,自-交叉注意力机制识别候选区域,并生成精确的掩码和3D模型以进行准确的位姿估计。另一个关键创新是自动重注册机制,通过特征相似性监控检测跟踪失败,并从严重的遮挡或快速运动中恢复。STORM在具有多对象遮挡、高速运动和变化光照等挑战性工业数据集上实现了最先进的精度,同时以实时速度运行,无需额外训练。这种无标注方法显著降低了部署开销,为柔性制造和智能质量控制等现代应用提供了实用的解决方案。

🔬 方法详解

问题定义:现有6D位姿估计方法依赖于预定义的3D模型和人工标注的分割掩码,这限制了其在实际工业场景中的应用。人工标注成本高昂,且当物体发生遮挡或快速运动时,基于人工标注的方法容易失效,导致位姿估计精度下降。因此,如何在无需人工标注的情况下,实现鲁棒且实时的6D位姿估计是一个关键问题。

核心思路:STORM的核心思路是利用视觉-语言理解能力,结合特征匹配,实现无需人工标注的物体分割、跟踪和重定位。通过上下文对象描述引导定位,利用自-交叉注意力机制识别候选区域,并生成精确的掩码和3D模型,从而实现准确的位姿估计。此外,STORM还引入了自动重注册机制,以应对跟踪失败的情况。

技术框架:STORM采用三阶段流程:1) 上下文对象描述引导定位:利用视觉-语言模型理解场景中的物体,并根据上下文信息初步定位目标物体。2) 自-交叉注意力机制识别候选区域:利用自-交叉注意力机制,在图像中识别出可能包含目标物体的候选区域。3) 精确掩码和3D模型生成:对候选区域进行分割,生成精确的掩码,并利用掩码和图像信息生成3D模型,用于位姿估计。此外,系统还包含一个自动重注册模块,用于检测跟踪失败并进行恢复。

关键创新:STORM的关键创新在于:1) 无需人工标注:通过视觉-语言理解和特征匹配,实现了无需人工标注的物体分割、跟踪和重定位。2) 自动重注册机制:通过特征相似性监控检测跟踪失败,并从严重的遮挡或快速运动中恢复。3) 三阶段流程:结合上下文信息、注意力机制和3D模型生成,实现了准确且鲁棒的位姿估计。

关键设计:STORM的关键设计包括:1) 视觉-语言模型的选择和训练:选择合适的视觉-语言模型,并针对特定场景进行微调,以提高物体识别和定位的准确性。2) 自-交叉注意力机制的设计:设计有效的自-交叉注意力机制,以准确识别候选区域。3) 损失函数的设计:设计合适的损失函数,用于训练分割网络和3D模型生成网络,以提高分割和3D模型生成的精度。4) 特征相似性监控的阈值设置:设置合适的特征相似性监控阈值,以准确检测跟踪失败。

📊 实验亮点

STORM在具有多对象遮挡、高速运动和变化光照等挑战性工业数据集上实现了最先进的精度,同时以实时速度运行,无需额外训练。具体性能数据未知,但论文强调其在复杂场景下的鲁棒性和实时性,以及无需人工标注的优势,使其在实际应用中具有更高的价值。

🎯 应用场景

STORM具有广泛的应用前景,尤其是在柔性制造和智能质量控制等领域。它可以用于机器人抓取、装配、检测等任务,提高生产效率和自动化水平。此外,STORM还可以应用于增强现实、虚拟现实等领域,为用户提供更自然、更真实的交互体验。未来,STORM有望成为物理AI系统的核心组成部分,推动人工智能技术在工业领域的广泛应用。

📄 摘要(原文)

Accurate 6D pose estimation and tracking are fundamental capabilities for physical AI systems such as robots. However, existing approaches typically require a pre-defined 3D model of the target and rely on a manually annotated segmentation mask in the first frame, which is labor-intensive and leads to reduced performance when faced with occlusions or rapid movement. To address these limitations, we propose STORM (Segment, Track, and Object Re-localization from a single iMage), an open-source robust real-time 6D pose estimation system that requires no manual annotation. STORM employs a novel three-stage pipeline combining vision-language understanding with feature matching: contextual object descriptions guide localization, self-cross-attention mechanisms identify candidate regions, and produce precise masks and 3D models for accurate pose estimation. Another key innovation is our automatic re-registration mechanism that detects tracking failures through feature similarity monitoring and recovers from severe occlusions or rapid motion. STORM achieves state-of-the-art accuracy on challenging industrial datasets featuring multi-object occlusions, high-speed motion, and varying illumination, while operating at real-time speeds without additional training. This annotation-free approach significantly reduces deployment overhead, providing a practical solution for modern applications, such as flexible manufacturing and intelligent quality control.