From Pixels to Patches: Pooling Strategies for Earth Embeddings
作者: Isaac Corley, Caleb Robinson, Inbal Becker-Reshef, Juan M. Lavista Ferres
分类: cs.CV, cs.LG
发布日期: 2026-03-02
💡 一句话要点
针对地球观测嵌入,提出更优的像素级嵌入池化策略,提升地理泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地理空间嵌入 池化策略 遥感图像 地理泛化 深度学习
📋 核心要点
- 现有地理空间基础模型使用平均池化聚合像素嵌入,忽略了patch内部信息,导致空间泛化能力下降。
- 论文提出使用更丰富的池化策略,如广义均值池化(GeM)和统计池化,以保留patch内的可变性信息。
- 实验表明,相比平均池化,GeM能有效提升准确率且不增加维度,统计池化在增加维度的情况下效果最佳。
📝 摘要(中文)
随着地理空间基础模型从patch级别向像素级别嵌入转变,从业者必须将数千个像素向量聚合为patch表示,以在匹配下游标签分辨率的同时保留类区分信号。默认选择的平均池化会丢弃patch内的可变性,并且在空间偏移下会降低超过10%的准确率。为了评估这种影响,我们引入了EuroSAT-Embed:81,000个由三个基础模型(AlphaEarth、OlmoEarth和Tessera)衍生的嵌入GeoTIFF。我们对随机和地理上不相交的测试集分割下的11种无训练和2种参数化池化方法进行了基准测试。结果表明,更丰富的池化方案相对于平均池化,可将地理泛化差距降低高达40%,并在空间分割上将准确率提高高达5%。我们推荐使用广义均值池化(GeM)作为平均池化的直接替代品:它提高了准确率而没有增加嵌入维度。为了获得最大准确率,统计池化(最小/最大/平均/标准差池化的串联)以4倍的嵌入大小表现最佳。我们进一步发现,池化的有效性因嵌入源而异,并且更高维度的嵌入从分布统计中获益最多。
🔬 方法详解
问题定义:论文旨在解决地理空间基础模型中,将像素级嵌入聚合为patch级别表示时,传统平均池化方法丢失patch内部信息,导致模型在地理分布偏移下泛化能力不足的问题。现有方法无法有效保留patch内的可变性,降低了下游任务的准确性。
核心思路:论文的核心思路是探索更有效的池化策略,以保留patch内部的分布信息,从而提升模型在不同地理区域的泛化能力。通过引入广义均值池化(GeM)和统计池化等方法,捕捉patch内像素嵌入的统计特征,弥补平均池化的不足。
技术框架:论文的技术框架主要包括以下几个步骤:1)使用三个预训练的地理空间基础模型(AlphaEarth、OlmoEarth和Tessera)生成像素级嵌入;2)使用不同的池化方法(包括平均池化、GeM、统计池化等)将像素级嵌入聚合为patch级别表示;3)在EuroSAT-Embed数据集上,使用随机分割和地理分割两种方式评估不同池化策略的性能;4)分析不同池化策略在不同嵌入源和嵌入维度下的表现。
关键创新:论文的关键创新在于:1)系统性地评估了多种池化策略在地理空间嵌入中的性能,并指出了平均池化的局限性;2)提出了使用GeM作为平均池化的替代方案,能够在不增加嵌入维度的情况下提升准确率;3)构建了EuroSAT-Embed数据集,为研究地理空间嵌入的池化策略提供了基准。
关键设计:论文的关键设计包括:1)EuroSAT-Embed数据集的构建,包含81,000个嵌入GeoTIFF,覆盖多种地理区域;2)对11种无训练池化方法和2种参数化池化方法进行基准测试;3)使用随机分割和地理分割两种方式评估模型性能,以衡量地理泛化能力;4)针对GeM池化,研究了可学习参数p的影响,发现其能够自适应地调整池化权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,相对于平均池化,GeM池化能够将地理泛化差距降低高达40%,并在空间分割上将准确率提高高达5%,且不增加嵌入维度。统计池化(最小/最大/平均/标准差池化的串联)在嵌入维度增加4倍的情况下,表现最佳。此外,研究还发现池化的有效性因嵌入源而异,并且更高维度的嵌入从分布统计中获益最多。
🎯 应用场景
该研究成果可应用于遥感图像分类、土地利用分析、灾害监测等领域。通过使用更有效的池化策略,可以提升地理空间基础模型在不同地理区域的泛化能力,从而提高相关应用的准确性和可靠性。该研究对推动地理空间智能的发展具有重要意义。
📄 摘要(原文)
As geospatial foundation models shift from patch-level to pixel-level embeddings, practitioners must aggregate thousands of pixel vectors into patch representations that preserve class-discriminative signal while matching downstream label resolution. The default choice, mean pooling, discards within-patch variability and can drop accuracy by more than 10% under spatial shift. To evaluate this effect, we introduce EuroSAT-Embed: 81,000 embedding GeoTIFFs derived from three foundation models: AlphaEarth, OlmoEarth, and Tessera. We benchmark 11 training-free and 2 parametric pooling methods under both random and geographically disjoint test splits. Our results show that richer pooling schemes reduce the geographic generalization gap by up to 40% relative to mean pooling and increases accuracy by up to 5% on spatial splits. We recommend Generalized Mean Pooling (GeM) as a drop-in replacement for mean pooling: it improves accuracy without increasing embedding dimensionality. For maximum accuracy, Stats pooling (concatenation of min/max/mean/std pooling) performs best at 4x the embedding size. We further find that pooling effectiveness varies across embedding sources and that higher-dimensional embeddings benefit most from distributional statistics.