Technical Report for ICRA 2025 GOOSE 2D Semantic Segmentation Challenge: Leveraging Color Shift Correction, RoPE-Swin Backbone, and Quantile-based Label Denoising Strategy for Robust Outdoor Scene Understanding
作者: Chih-Chung Hsu, I-Hsuan Wu, Wen-Hai Tseng, Ching-Heng Cheng, Ming-Hsuan Wu, Jin-Hui Jiang, Yu-Jou Hsiao
分类: cs.CV
发布日期: 2025-05-11
💡 一句话要点
提出基于RoPE-Swin的语义分割框架以解决户外场景理解问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 语义分割 户外场景理解 颜色校正 RoPE-Swin 去噪策略 深度学习 计算机视觉
📋 核心要点
- 现有的语义分割方法在处理复杂的户外场景时,常常受到光照变化和噪声的影响,导致分割精度不足。
- 本研究提出了一种集成RoPE-Swin骨干网络和颜色偏移校正模块的框架,旨在提高户外场景的语义分割性能。
- 在实验中,我们的方法在GOOSE测试集上达到了0.848的mIoU,相较于传统方法有显著提升,验证了其有效性。
📝 摘要(中文)
本报告介绍了ACVLAB团队为ICRA 2025 GOOSE 2D语义分割挑战开发的语义分割框架,旨在在真实环境中将户外场景解析为九个语义类别。我们的方法结合了增强空间泛化能力的Swin Transformer骨干网络和旋转位置嵌入(RoPE),以及用于补偿自然环境中光照不一致的颜色偏移估计与校正模块。为了进一步提高训练稳定性,我们采用了基于分位数的去噪策略,降低了最高2.5%误差像素的权重,将其视为噪声,从而在优化过程中抑制其影响。在官方GOOSE测试集上的评估结果显示,我们的方法实现了0.848的平均交并比(mIoU),证明了颜色校正、位置编码和误差感知去噪相结合在鲁棒语义分割中的有效性。
🔬 方法详解
问题定义:本研究旨在解决户外场景语义分割中的光照不一致和高误差像素对模型性能的影响。现有方法在这些复杂环境下表现不佳,导致分割效果不理想。
核心思路:我们的方法通过引入RoPE-Swin骨干网络来增强空间泛化能力,同时结合颜色偏移校正模块来处理光照变化。此外,采用基于分位数的去噪策略来降低高误差像素的影响,从而提高训练的稳定性和模型的鲁棒性。
技术框架:整体架构包括三个主要模块:RoPE-Swin骨干网络用于特征提取,颜色偏移校正模块用于处理光照不一致,分位数去噪策略用于优化训练过程。各模块相互配合,形成完整的语义分割流程。
关键创新:本研究的主要创新在于结合了RoPE位置编码与颜色校正技术,显著提升了模型在复杂户外场景中的表现。此外,基于分位数的去噪策略有效地抑制了高误差像素的影响,增强了模型的稳定性。
关键设计:在网络结构上,我们采用了Swin Transformer作为基础架构,并在其上集成了RoPE。损失函数设计上,重点关注降低高误差像素的权重,以实现更有效的优化。
📊 实验亮点
在实验中,我们的方法在GOOSE测试集上取得了0.848的平均交并比(mIoU),相较于传统方法有显著提升,验证了颜色校正、位置编码和误差感知去噪相结合的有效性。该结果展示了我们方法在复杂户外场景理解中的强大能力。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶、无人机导航和智能监控等场景,能够有效提升在复杂环境下的视觉理解能力。未来,随着技术的进一步发展,该框架有望在更广泛的实际应用中发挥重要作用。
📄 摘要(原文)
This report presents our semantic segmentation framework developed by team ACVLAB for the ICRA 2025 GOOSE 2D Semantic Segmentation Challenge, which focuses on parsing outdoor scenes into nine semantic categories under real-world conditions. Our method integrates a Swin Transformer backbone enhanced with Rotary Position Embedding (RoPE) for improved spatial generalization, alongside a Color Shift Estimation-and-Correction module designed to compensate for illumination inconsistencies in natural environments. To further improve training stability, we adopt a quantile-based denoising strategy that downweights the top 2.5\% of highest-error pixels, treating them as noise and suppressing their influence during optimization. Evaluated on the official GOOSE test set, our approach achieved a mean Intersection over Union (mIoU) of 0.848, demonstrating the effectiveness of combining color correction, positional encoding, and error-aware denoising in robust semantic segmentation.