DiffPixelFormer: Differential Pixel-Aware Transformer for RGB-D Indoor Scene Segmentation

作者: Yan Gong, Jianli Lu, Yongsheng Gao, Jie Zhao, Xiaojuan Zhang, Susanto Rahardja

分类: cs.CV, cs.RO

发布日期: 2025-11-17

备注: 11 pages, 5 figures, 5 tables

🔗 代码/项目: GITHUB

💡 一句话要点

提出DiffPixelFormer，用于提升RGB-D室内场景分割的精度和效率。

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: RGB-D场景分割 Transformer 跨模态融合 自注意力机制 室内场景理解 语义分割 深度学习

📋 核心要点

现有RGB-D室内场景分割方法依赖计算量大的交叉注意力，且模态内和模态间特征关系建模不足。
DiffPixelFormer通过差分像素感知Transformer，增强模态内表示，并使用DSIM模块解耦模态特定和共享线索。
在SUN RGB-D和NYUDv2数据集上，DiffPixelFormer-L的mIoU分别提升了1.78%和2.75%。

📝 摘要（中文）

室内语义分割是计算机视觉和机器人学的基石，支持自主导航、增强现实和智能环境等应用。尽管RGB-D融合利用了互补的外观和几何线索，但现有方法通常依赖于计算密集型的交叉注意力机制，并且对模态内和模态间特征关系的建模不足，导致特征对齐不精确和判别表示有限。为了解决这些挑战，我们提出了一种差分像素感知Transformer，即DiffPixelFormer，用于RGB-D室内场景分割，它同时增强模态内表示并建模模态间交互。其核心是模态内-模态间交互块（IIMIB），它通过自注意力捕获模态内长程依赖关系，并使用差分-共享模态间（DSIM）模块建模模态间交互，以解耦模态特定和共享线索，从而实现细粒度的像素级跨模态对齐。此外，动态融合策略平衡了模态贡献，并根据场景特征充分利用RGB-D信息。在SUN RGB-D和NYUDv2基准上的大量实验表明，DiffPixelFormer-L实现了54.28%和59.95%的mIoU分数，分别优于DFormer-L 1.78%和2.75%。代码已在https://github.com/gongyan1/DiffPixelFormer上提供。

🔬 方法详解

问题定义：现有RGB-D室内场景分割方法在融合RGB和深度信息时，通常采用计算复杂度高的交叉注意力机制，并且对模态内部和模态之间的特征关系建模不够充分，导致特征对齐不精确，最终限制了分割的精度。这些方法难以有效区分模态特定信息和模态共享信息，从而影响了最终的分割效果。

核心思路：DiffPixelFormer的核心思路是通过差分像素感知Transformer，同时增强模态内表示和建模模态间交互。具体来说，它利用自注意力机制捕获模态内的长程依赖关系，并设计了差分-共享模态间（DSIM）模块来解耦模态特定和共享的线索，从而实现细粒度的像素级跨模态对齐。这种设计旨在更有效地利用RGB-D信息，提升分割精度。

技术框架：DiffPixelFormer的整体架构包含以下几个主要模块：首先，分别对RGB和深度图像进行特征提取。然后，通过提出的模态内-模态间交互块（IIMIB）进行特征融合，该模块包含自注意力机制和DSIM模块。自注意力机制用于捕获模态内的长程依赖关系，DSIM模块用于解耦模态特定和共享的线索。最后，通过一个动态融合策略来平衡模态贡献，并进行像素级别的语义分割。

关键创新：DiffPixelFormer的关键创新在于提出了差分-共享模态间（DSIM）模块。与传统的交叉注意力机制不同，DSIM模块能够显式地解耦模态特定和共享的特征，从而实现更精细的跨模态对齐。此外，动态融合策略能够根据场景特征自适应地调整RGB和深度信息的权重，进一步提升分割性能。

关键设计：DSIM模块的设计是关键。它通过差分学习的方式，将每个模态的特征分解为共享部分和特定部分。共享部分用于表示两个模态共有的信息，而特定部分则用于表示每个模态独有的信息。这种分解方式有助于模型更好地理解RGB-D数据，并提升分割精度。动态融合策略使用一个可学习的权重来平衡RGB和深度信息的贡献，该权重根据输入图像的特征动态调整。

📊 实验亮点

DiffPixelFormer在SUN RGB-D和NYUDv2数据集上取得了显著的性能提升。在SUN RGB-D数据集上，DiffPixelFormer-L达到了54.28%的mIoU，相比DFormer-L提升了1.78%。在NYUDv2数据集上，DiffPixelFormer-L达到了59.95%的mIoU，相比DFormer-L提升了2.75%。这些结果表明DiffPixelFormer在RGB-D室内场景分割任务中具有优越的性能。

🎯 应用场景

DiffPixelFormer在室内场景理解方面具有广泛的应用前景，例如服务机器人、增强现实、智能家居等。高精度的室内场景分割可以帮助机器人更好地理解周围环境，从而实现更智能的导航和交互。在增强现实应用中，可以提供更逼真的场景渲染和对象交互。在智能家居领域，可以实现更精细的环境感知和控制。

📄 摘要（原文）

Indoor semantic segmentation is fundamental to computer vision and robotics, supporting applications such as autonomous navigation, augmented reality, and smart environments. Although RGB-D fusion leverages complementary appearance and geometric cues, existing methods often depend on computationally intensive cross-attention mechanisms and insufficiently model intra- and inter-modal feature relationships, resulting in imprecise feature alignment and limited discriminative representation. To address these challenges, we propose DiffPixelFormer, a differential pixel-aware Transformer for RGB-D indoor scene segmentation that simultaneously enhances intra-modal representations and models inter-modal interactions. At its core, the Intra-Inter Modal Interaction Block (IIMIB) captures intra-modal long-range dependencies via self-attention and models inter-modal interactions with the Differential-Shared Inter-Modal (DSIM) module to disentangle modality-specific and shared cues, enabling fine-grained, pixel-level cross-modal alignment. Furthermore, a dynamic fusion strategy balances modality contributions and fully exploits RGB-D information according to scene characteristics. Extensive experiments on the SUN RGB-D and NYUDv2 benchmarks demonstrate that DiffPixelFormer-L achieves mIoU scores of 54.28% and 59.95%, outperforming DFormer-L by 1.78% and 2.75%, respectively. Code is available at https://github.com/gongyan1/DiffPixelFormer.

DiffPixelFormer: Differential Pixel-Aware Transformer for RGB-D Indoor Scene Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册