Cryo-Bench: Benchmarking Foundation Models for Cryosphere Applications

作者: Saurabh Kaushik, Lalit Maurya, Beth Tellman

分类: cs.CV

发布日期: 2026-03-02

🔗 代码/项目: GITHUB

💡 一句话要点

Cryo-Bench：冰冻圈应用领域地理基础模型评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 冰冻圈 地理基础模型 基准测试 图像分割 遥感 深度学习 领域自适应

📋 核心要点

现有冰冻圈GFM评估缺乏统一基准和数据集，难以客观比较模型性能和指导实际应用。
Cryo-Bench提供包含多种冰冻圈要素、传感器和地理区域的综合数据集，用于评估GFM性能。
实验表明，冻结编码器UNet表现最佳，小样本学习中GFM优于UNet，微调GFM需优化超参数。

📝 摘要（中文）

地理基础模型(GFMs)在各种地球观测任务中展现出强大的潜力，即使在标签稀疏的情况下也能生成可靠的地图。然而，由于缺乏合适的评估数据集，针对冰冻圈应用的GFMs基准测试仍然有限。为了解决这一问题，我们推出了Cryo-Bench，一个用于评估GFMs在关键冰冻圈组成部分性能的基准。Cryo-Bench包含覆盖碎屑冰川、冰川湖、海冰和冰川崩解前缘等数据集，跨越多种传感器和广泛的地理区域。我们评估了14个GFMs以及UNet和ViT基线，以评估它们的优势、局限性和最佳使用策略。在冻结编码器的情况下，UNet实现了最高的平均mIoU，为66.38，其次是TerraMind，为64.02。在小样本设置(10%输入数据)中，DOFA和TerraMind等GFMs优于UNet。对GFMs进行完全微调时，我们观察到跨数据集和模型的不一致性能。然而，调整学习率以及微调可以显著提高GFM性能。例如，在两个代表性数据集(GLID和CaFFe)上的评估显示，平均相对改进为12.77%。尽管预训练数据中冰冻圈的代表性极小，但GFMs表现出显著的领域适应能力，并在各项任务中产生有意义的结果。基于我们的发现，我们建议使用超参数优化进行编码器微调，以实现最佳性能，同时在用户需要快速结果而无需大量实验时使用冻结编码器。

🔬 方法详解

问题定义：论文旨在解决冰冻圈应用中地理基础模型（GFMs）缺乏标准化评估基准的问题。现有方法难以系统性地评估GFMs在冰冻圈要素识别和分割任务中的性能，阻碍了GFMs在该领域的应用和发展。现有数据集的不足和评估指标的缺乏是主要痛点。

核心思路：论文的核心思路是构建一个综合性的冰冻圈基准数据集Cryo-Bench，并基于该数据集对多个GFMs进行系统评估。通过对比不同模型在不同冰冻圈要素上的性能，揭示GFMs的优势、局限性和适用场景，为用户选择合适的模型和优化模型参数提供指导。

技术框架：Cryo-Bench包含以下几个主要组成部分：1) 冰冻圈数据集：包含碎屑冰川、冰川湖、海冰和冰川崩解前缘等多种冰冻圈要素，覆盖多种传感器和地理区域。2) 评估指标：采用常用的图像分割评估指标，如平均交并比（mIoU）等。3) 基线模型：选择了14个GFMs以及UNet和ViT作为基线模型进行对比评估。4) 实验设置：设计了不同的实验设置，包括全数据训练、小样本学习和微调等，以评估模型在不同情况下的性能。

关键创新：论文的主要创新点在于构建了首个专门针对冰冻圈应用的GFMs基准数据集Cryo-Bench。该数据集的综合性和多样性使其能够全面评估GFMs在冰冻圈要素识别和分割任务中的性能。此外，论文还通过实验揭示了GFMs在冰冻圈应用中的优势和局限性，为用户提供了有价值的参考。

关键设计：论文的关键设计包括：1) 数据集构建：精心挑选和标注了包含多种冰冻圈要素的数据，并确保数据集的多样性和代表性。2) 模型选择：选择了具有代表性的GFMs以及常用的图像分割模型作为基线模型。3) 实验设置：设计了不同的实验设置，以评估模型在不同情况下的性能，并探索了模型微调的最佳策略。4) 评估指标：采用常用的图像分割评估指标，如mIoU，以客观评估模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在冻结编码器的情况下，UNet取得了最高的平均mIoU（66.38），其次是TerraMind（64.02）。在小样本学习（10%数据）中，DOFA和TerraMind等GFMs优于UNet。通过调整学习率进行微调，GFMs在GLID和CaFFe数据集上的平均相对改进为12.77%。这些结果表明，GFMs在冰冻圈应用中具有一定的潜力，但需要针对具体任务进行优化。

🎯 应用场景

该研究成果可应用于冰冻圈变化监测、气候变化研究、自然灾害预警等领域。通过利用Cryo-Bench评估和优化GFMs，可以提高冰冻圈要素识别和分割的精度和效率，为相关研究和应用提供更可靠的数据支持。未来，该基准可以扩展到更多冰冻圈要素和传感器类型，并与其他地球观测数据集相结合，为更广泛的地球科学研究提供支持。

📄 摘要（原文）

Geo-Foundation Models (GFMs) have been evaluated across diverse Earth observation task including multiple domains and have demonstrated strong potential of producing reliable maps even with sparse labels. However, benchmarking GFMs for Cryosphere applications has remained limited, primarily due to the lack of suitable evaluation datasets. To address this gap, we introduce \textbf{Cryo-Bench}, a benchmark compiled to evaluate GFM performance across key Cryospheric components. Cryo-Bench includes debris-covered glaciers, glacial lakes, sea ice, and calving fronts, spanning multiple sensors and broad geographic regions. We evaluate 14 GFMs alongside UNet and ViT baselines to assess their advantages, limitations, and optimal usage strategies. With a frozen encoder, UNet achieves the highest average mIoU of \textbf{66.38}, followed by TerraMind at \textbf{64.02} across five evluation dataset included in Cryo-Bench. In the few-shot setting (10\% input data), GFMs such as DOFA and TerraMind outperform UNet, achieving mIoU scores of \textbf{59.53}, \textbf{56.62}, and \textbf{56.60}, respectively, comapred to U-Net's 56.60. When fully finetuning GFMs, we observe inconsistent performance across datasets and models. However, tuning learning rate along with finetuning substantially improves GFM performance. For example, evaluation on two representative datasets (GLID and CaFFe) shows an average relative improvement of \textbf{12.77\%}. Despite having minimal Cryosphere representation in their pretraining data, GFMs exhibit notable domain adaptation capabilities and produce meaningful results across tasks. Based on our findings, We recommend encoder fine-tuning with hyperparameter optimization optimization to achieve the best possible performance, while using frozen encoders when users need quick results without extensive experimentation.(\href{https://github.com/Sk-2103/Cryo-Bench}{GitHub}).

Cryo-Bench: Benchmarking Foundation Models for Cryosphere Applications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理