From Pixels to Patches: Pooling Strategies for Earth Embeddings

作者: Isaac Corley, Caleb Robinson, Inbal Becker-Reshef, Juan M. Lavista Ferres

分类: cs.CV, cs.LG

发布日期: 2026-03-02

💡 一句话要点

针对地球观测嵌入，提出更优的像素级嵌入池化策略，提升地理泛化能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 地理空间嵌入 池化策略 遥感图像 地理泛化 深度学习

📋 核心要点

现有地理空间基础模型使用平均池化聚合像素嵌入，忽略了patch内部信息，导致空间泛化能力下降。
论文提出使用更丰富的池化策略，如广义均值池化（GeM）和统计池化，以保留patch内的可变性信息。
实验表明，相比平均池化，GeM能有效提升准确率且不增加维度，统计池化在增加维度的情况下效果最佳。

📝 摘要（中文）

随着地理空间基础模型从patch级别向像素级别嵌入转变，从业者必须将数千个像素向量聚合为patch表示，以在匹配下游标签分辨率的同时保留类区分信号。默认选择的平均池化会丢弃patch内的可变性，并且在空间偏移下会降低超过10%的准确率。为了评估这种影响，我们引入了EuroSAT-Embed：81,000个由三个基础模型（AlphaEarth、OlmoEarth和Tessera）衍生的嵌入GeoTIFF。我们对随机和地理上不相交的测试集分割下的11种无训练和2种参数化池化方法进行了基准测试。结果表明，更丰富的池化方案相对于平均池化，可将地理泛化差距降低高达40%，并在空间分割上将准确率提高高达5%。我们推荐使用广义均值池化（GeM）作为平均池化的直接替代品：它提高了准确率而没有增加嵌入维度。为了获得最大准确率，统计池化（最小/最大/平均/标准差池化的串联）以4倍的嵌入大小表现最佳。我们进一步发现，池化的有效性因嵌入源而异，并且更高维度的嵌入从分布统计中获益最多。

🔬 方法详解

问题定义：论文旨在解决地理空间基础模型中，将像素级嵌入聚合为patch级别表示时，传统平均池化方法丢失patch内部信息，导致模型在地理分布偏移下泛化能力不足的问题。现有方法无法有效保留patch内的可变性，降低了下游任务的准确性。

核心思路：论文的核心思路是探索更有效的池化策略，以保留patch内部的分布信息，从而提升模型在不同地理区域的泛化能力。通过引入广义均值池化（GeM）和统计池化等方法，捕捉patch内像素嵌入的统计特征，弥补平均池化的不足。

技术框架：论文的技术框架主要包括以下几个步骤：1）使用三个预训练的地理空间基础模型（AlphaEarth、OlmoEarth和Tessera）生成像素级嵌入；2）使用不同的池化方法（包括平均池化、GeM、统计池化等）将像素级嵌入聚合为patch级别表示；3）在EuroSAT-Embed数据集上，使用随机分割和地理分割两种方式评估不同池化策略的性能；4）分析不同池化策略在不同嵌入源和嵌入维度下的表现。

关键创新：论文的关键创新在于：1）系统性地评估了多种池化策略在地理空间嵌入中的性能，并指出了平均池化的局限性；2）提出了使用GeM作为平均池化的替代方案，能够在不增加嵌入维度的情况下提升准确率；3）构建了EuroSAT-Embed数据集，为研究地理空间嵌入的池化策略提供了基准。

关键设计：论文的关键设计包括：1）EuroSAT-Embed数据集的构建，包含81,000个嵌入GeoTIFF，覆盖多种地理区域；2）对11种无训练池化方法和2种参数化池化方法进行基准测试；3）使用随机分割和地理分割两种方式评估模型性能，以衡量地理泛化能力；4）针对GeM池化，研究了可学习参数p的影响，发现其能够自适应地调整池化权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，相对于平均池化，GeM池化能够将地理泛化差距降低高达40%，并在空间分割上将准确率提高高达5%，且不增加嵌入维度。统计池化（最小/最大/平均/标准差池化的串联）在嵌入维度增加4倍的情况下，表现最佳。此外，研究还发现池化的有效性因嵌入源而异，并且更高维度的嵌入从分布统计中获益最多。

🎯 应用场景

该研究成果可应用于遥感图像分类、土地利用分析、灾害监测等领域。通过使用更有效的池化策略，可以提升地理空间基础模型在不同地理区域的泛化能力，从而提高相关应用的准确性和可靠性。该研究对推动地理空间智能的发展具有重要意义。

📄 摘要（原文）

As geospatial foundation models shift from patch-level to pixel-level embeddings, practitioners must aggregate thousands of pixel vectors into patch representations that preserve class-discriminative signal while matching downstream label resolution. The default choice, mean pooling, discards within-patch variability and can drop accuracy by more than 10% under spatial shift. To evaluate this effect, we introduce EuroSAT-Embed: 81,000 embedding GeoTIFFs derived from three foundation models: AlphaEarth, OlmoEarth, and Tessera. We benchmark 11 training-free and 2 parametric pooling methods under both random and geographically disjoint test splits. Our results show that richer pooling schemes reduce the geographic generalization gap by up to 40% relative to mean pooling and increases accuracy by up to 5% on spatial splits. We recommend Generalized Mean Pooling (GeM) as a drop-in replacement for mean pooling: it improves accuracy without increasing embedding dimensionality. For maximum accuracy, Stats pooling (concatenation of min/max/mean/std pooling) performs best at 4x the embedding size. We further find that pooling effectiveness varies across embedding sources and that higher-dimensional embeddings benefit most from distributional statistics.

From Pixels to Patches: Pooling Strategies for Earth Embeddings

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理