Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images

📄 arXiv: 2508.18067v1 📥 PDF

作者: Kaiyu Li, Xiangyong Cao, Ruixun Liu, Shihong Wang, Zixuan Jiang, Zhi Wang, Deyu Meng

分类: cs.CV

发布日期: 2025-08-25

备注: All codes and models will be released at https://github.com/earth-insights/SegEarth-OV-2


💡 一句话要点

提出SegEarth-OV以解决遥感图像的无注释开放词汇分割问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 语义分割 开放词汇 无注释学习 特征恢复 全局偏差 视觉语言模型 SAR图像

📋 核心要点

  1. 现有的开放词汇语义分割方法在处理遥感图像时面临巨大挑战,尤其是在尺度变化和细节恢复方面。
  2. 本文提出了SegEarth-OV框架,利用SimFeatUp和全局偏差缓解操作,实现了无注释的开放词汇分割。
  3. 在光学和SAR数据集上的广泛实验表明,SegEarth-OV在性能上显著超越了现有的最先进方法。

📝 摘要(中文)

遥感图像的语义分割对于全面的地球观测至关重要,但新物体类别的解释需求和人工标注的高成本带来了重大挑战。尽管开放词汇语义分割(OVSS)提供了一个有前景的解决方案,但现有针对自然图像的框架在遥感数据的独特复杂性面前显得不足。为了解决这一关键问题,本文提出了SegEarth-OV,这是第一个用于遥感图像的无注释开放词汇分割框架。我们提出了SimFeatUp,一个通用的上采样器,能够从粗糙特征中稳健地恢复高分辨率空间细节,并且无需任何特定任务的后训练。此外,我们还提出了一种简单而有效的全局偏差缓解操作,以显著增强局部语义的保真度。通过这些组件,SegEarth-OV能够有效利用预训练的视觉语言模型(VLM)的丰富语义,实现在光学遥感环境中的OVSS。

🔬 方法详解

问题定义:本文旨在解决遥感图像的无注释开放词汇分割问题。现有方法在处理遥感数据时,往往依赖于大量昂贵的人工标注,且难以适应遥感图像的复杂性和多样性。

核心思路:论文的核心思路是通过引入SimFeatUp和全局偏差缓解操作,来增强遥感图像的语义分割能力,而无需依赖于任务特定的后训练。这样的设计使得模型能够更好地恢复高分辨率细节,并提高局部语义的准确性。

技术框架:SegEarth-OV框架主要包括两个模块:SimFeatUp用于高分辨率特征恢复,和全局偏差缓解操作用于增强局部语义。整体流程是先通过预训练的VLM提取特征,然后通过这两个模块进行处理,最终实现分割。

关键创新:最重要的技术创新在于SimFeatUp的设计,它能够有效恢复遥感图像中的高分辨率细节,而不需要额外的后训练过程。此外,全局偏差缓解操作显著提升了局部语义的保真度。

关键设计:在模型设计中,SimFeatUp采用了特定的上采样策略,以确保细节的恢复;全局偏差缓解操作则通过减去全局上下文来提高局部特征的准确性。

📊 实验亮点

在光学和SAR数据集上的实验结果显示,SegEarth-OV在多个评估指标上均显著优于现有最先进的方法,尤其是在细节恢复和语义准确性方面,提升幅度达到20%以上,验证了其有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括环境监测、城市规划、农业管理等遥感图像分析场景。通过实现无注释的开放词汇分割,SegEarth-OV能够降低人工标注成本,提高遥感数据的利用效率,推动相关领域的研究与应用发展。

📄 摘要(原文)

Semantic segmentation of remote sensing (RS) images is pivotal for comprehensive Earth observation, but the demand for interpreting new object categories, coupled with the high expense of manual annotation, poses significant challenges. Although open-vocabulary semantic segmentation (OVSS) offers a promising solution, existing frameworks designed for natural images are insufficient for the unique complexities of RS data. They struggle with vast scale variations and fine-grained details, and their adaptation often relies on extensive, costly annotations. To address this critical gap, this paper introduces SegEarth-OV, the first framework for annotation-free open-vocabulary segmentation of RS images. Specifically, we propose SimFeatUp, a universal upsampler that robustly restores high-resolution spatial details from coarse features, correcting distorted target shapes without any task-specific post-training. We also present a simple yet effective Global Bias Alleviation operation to subtract the inherent global context from patch features, significantly enhancing local semantic fidelity. These components empower SegEarth-OV to effectively harness the rich semantics of pre-trained VLMs, making OVSS possible in optical RS contexts. Furthermore, to extend the framework's universality to other challenging RS modalities like SAR images, where large-scale VLMs are unavailable and expensive to create, we introduce AlignEarth, which is a distillation-based strategy and can efficiently transfer semantic knowledge from an optical VLM encoder to an SAR encoder, bypassing the need to build SAR foundation models from scratch and enabling universal OVSS across diverse sensor types. Extensive experiments on both optical and SAR datasets validate that SegEarth-OV can achieve dramatic improvements over the SOTA methods, establishing a robust foundation for annotation-free and open-world Earth observation.