Enhancing Rotation-Invariant 3D Learning with Global Pose Awareness and Attention Mechanisms
作者: Jiaxun Guo, Manar Amayri, Nizar Bouguila, Xin Liu, Wentao Fan
分类: cs.CV
发布日期: 2025-11-11
备注: 14 pages, 6 gigures,AAAI 2026
💡 一句话要点
提出SiPF和RIAttnConv,增强旋转不变3D学习的全局姿态感知和区分能力
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 旋转不变学习 3D点云 全局姿态感知 注意力机制 Bingham分布
📋 核心要点
- 现有旋转不变3D点云学习方法损失了全局姿态信息,导致模型无法区分几何相似但空间位置不同的结构。
- 本文提出Shadow-informed Pose Feature (SiPF)和Rotation-invariant Attention Convolution (RIAttnConv),增强全局姿态感知和区分能力。
- 实验表明,本文方法在3D分类和部件分割任务上显著优于现有方法,尤其是在需要细粒度空间区分的任务中。
📝 摘要(中文)
针对3D点云旋转不变学习中,现有方法因缺乏全局姿态信息而难以区分几何相似但空间位置不同的结构的问题,本文提出了一种名为Shadow-informed Pose Feature (SiPF) 的方法。该方法通过引入从学习到的共享旋转中导出的全局一致参考点(称为“阴影”)来增强局部旋转不变描述符,从而使模型能够在保持旋转不变性的同时保留全局姿态感知。此外,本文还提出了旋转不变注意力卷积 (RIAttnConv),它是一种基于注意力的算子,将 SiPF 集成到特征聚合过程中,从而增强模型区分结构相似组件的能力。此外,本文设计了一个基于 Bingham 分布的任务自适应阴影定位模块,该模块动态学习用于构建一致阴影的最佳全局旋转。在 3D 分类和部件分割基准上的大量实验表明,本文的方法显着优于现有的旋转不变方法,尤其是在需要在任意旋转下进行细粒度空间区分的任务中。
🔬 方法详解
问题定义:现有旋转不变3D点云学习方法通常使用手工设计的旋转不变特征来代替原始坐标,以确保在任意旋转下的鲁棒性。然而,这些方法通常会丢失全局姿态信息,导致模型无法区分几何形状相似但空间位置不同的结构,例如飞机的左右机翼。这种局限性源于现有旋转不变方法中有限的感受野,导致翼尖特征坍塌,即由于无法区分的局部几何形状而无法区分对称组件。
核心思路:本文的核心思路是通过引入全局一致的参考点(“阴影”)来增强局部旋转不变描述符,从而使模型能够在保持旋转不变性的同时感知全局姿态。通过学习一个共享旋转,可以为每个点云生成一个全局一致的阴影,从而为局部特征提供全局上下文信息。
技术框架:本文提出的方法主要包含三个模块:1) Shadow-informed Pose Feature (SiPF) 模块,用于生成包含全局姿态信息的局部特征;2) Rotation-invariant Attention Convolution (RIAttnConv) 模块,用于聚合 SiPF 特征;3) 任务自适应阴影定位模块,用于动态学习最佳全局旋转。整体流程是首先通过任务自适应阴影定位模块学习全局旋转,然后使用该旋转生成 SiPF 特征,最后使用 RIAttnConv 模块聚合 SiPF 特征进行分类或分割。
关键创新:本文最重要的技术创新点在于提出了 Shadow-informed Pose Feature (SiPF),它将全局姿态信息融入到局部旋转不变特征中。与现有方法不同,SiPF 不仅考虑了局部几何形状,还考虑了全局姿态信息,从而能够区分几何形状相似但空间位置不同的结构。此外,任务自适应阴影定位模块也能够动态学习最佳全局旋转,从而进一步提高模型的性能。
关键设计:任务自适应阴影定位模块基于 Bingham 分布对单位四元数进行建模,并通过最小化损失函数来学习最佳全局旋转。RIAttnConv 模块使用注意力机制来聚合 SiPF 特征,从而使模型能够关注更重要的特征。损失函数包括分类或分割损失以及正则化项,以防止过拟合。
📊 实验亮点
在3D分类和部件分割任务上,本文方法显著优于现有旋转不变方法。例如,在ModelNet40分类任务上,本文方法取得了state-of-the-art的结果。在ShapeNet部件分割任务上,本文方法也取得了显著的提升,尤其是在需要细粒度空间区分的任务上。
🎯 应用场景
该研究成果可应用于机器人导航、三维物体识别、自动驾驶等领域。通过增强模型对旋转的鲁棒性和对全局姿态的感知能力,可以提高这些应用在复杂环境下的性能和可靠性。例如,在机器人导航中,可以帮助机器人更好地识别和定位物体,从而实现更精确的导航。
📄 摘要(原文)
Recent advances in rotation-invariant (RI) learning for 3D point clouds typically replace raw coordinates with handcrafted RI features to ensure robustness under arbitrary rotations. However, these approaches often suffer from the loss of global pose information, making them incapable of distinguishing geometrically similar but spatially distinct structures. We identify that this limitation stems from the restricted receptive field in existing RI methods, leading to Wing-tip feature collapse, a failure to differentiate symmetric components (e.g., left and right airplane wings) due to indistinguishable local geometries. To overcome this challenge, we introduce the Shadow-informed Pose Feature (SiPF), which augments local RI descriptors with a globally consistent reference point (referred to as the 'shadow') derived from a learned shared rotation. This mechanism enables the model to preserve global pose awareness while maintaining rotation invariance. We further propose Rotation-invariant Attention Convolution (RIAttnConv), an attention-based operator that integrates SiPFs into the feature aggregation process, thereby enhancing the model's capacity to distinguish structurally similar components. Additionally, we design a task-adaptive shadow locating module based on the Bingham distribution over unit quaternions, which dynamically learns the optimal global rotation for constructing consistent shadows. Extensive experiments on 3D classification and part segmentation benchmarks demonstrate that our approach substantially outperforms existing RI methods, particularly in tasks requiring fine-grained spatial discrimination under arbitrary rotations.