DiffusionSat: A Generative Foundation Model for Satellite Imagery
作者: Samar Khanna, Patrick Liu, Linqi Zhou, Chenlin Meng, Robin Rombach, Marshall Burke, David Lobell, Stefano Ermon
分类: cs.CV, cs.AI, cs.LG
发布日期: 2023-12-06 (更新: 2024-05-25)
备注: Published at ICLR 2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
DiffusionSat:面向卫星图像的生成式基础模型,支持时空条件生成任务
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 卫星图像生成 扩散模型 遥感 时空条件生成 元数据 深度学习 生成式模型
📋 核心要点
- 现有扩散模型无法有效处理卫星图像的多光谱、时空不规则采样等特性,限制了其在遥感领域的应用。
- DiffusionSat通过结合地理位置等元数据作为条件信息,并利用大规模遥感数据集进行训练,从而生成逼真的卫星图像。
- 实验表明,DiffusionSat在时间生成、超分辨率和图像修复等任务上优于现有方法,是首个大规模卫星图像生成式基础模型。
📝 摘要(中文)
扩散模型在图像、语音和视频等多种模态上取得了最先进的结果。然而,现有的模型并未针对遥感数据进行定制,而遥感数据广泛应用于环境监测和作物产量预测等重要应用中。卫星图像与自然图像显著不同,它们可以是多光谱的,并且在时间上不规则采样,而基于网络图像训练的现有扩散模型不支持这些特性。此外,遥感数据本质上是时空的,需要传统的基于文本或图像的条件生成方法无法支持的条件生成任务。本文提出了DiffusionSat,这是迄今为止在公开的大型高分辨率遥感数据集上训练的最大的生成式基础模型。由于卫星图像的文本描述稀疏,我们结合了相关的元数据,如地理位置作为条件信息。我们的方法可以生成逼真的样本,并可用于解决多种生成任务,包括时间生成、多光谱输入的超分辨率和图像修复。我们的方法优于以往的卫星图像生成的最先进方法,并且是第一个大规模的卫星图像生成式基础模型。
🔬 方法详解
问题定义:论文旨在解决现有生成模型在卫星图像生成方面的不足。卫星图像具有多光谱、时空不规则采样等特性,且缺乏丰富的文本描述,使得传统扩散模型难以直接应用。此外,遥感应用需要支持时空条件下的图像生成,例如根据历史图像预测未来图像,或根据低分辨率图像生成高分辨率图像。
核心思路:论文的核心思路是训练一个专门针对卫星图像的扩散模型,并利用卫星图像的元数据(如地理位置)作为条件信息,以克服文本描述的不足。通过在大规模遥感数据集上进行训练,使模型能够学习到卫星图像的特有特征和时空关系,从而生成更逼真的图像。
技术框架:DiffusionSat的整体框架基于扩散模型,包括前向扩散过程和反向生成过程。在前向扩散过程中,图像逐渐被加入噪声,直到完全变成噪声。在反向生成过程中,模型从噪声中逐步恢复出图像。为了实现条件生成,模型在反向生成过程中利用元数据作为条件信息,引导图像的生成。整体流程包括数据预处理、模型训练和图像生成三个阶段。
关键创新:DiffusionSat的关键创新在于:1) 它是首个大规模的卫星图像生成式基础模型;2) 它利用元数据作为条件信息,克服了卫星图像文本描述稀疏的问题;3) 它支持多种时空条件生成任务,例如时间生成、超分辨率和图像修复。
关键设计:DiffusionSat使用了U-Net作为其核心网络结构,并针对卫星图像的特点进行了一些调整。例如,模型使用了多头注意力机制来捕捉不同光谱通道之间的关系。此外,模型还使用了自适应层归一化(Adaptive Layer Normalization)来提高训练的稳定性。损失函数主要采用标准的扩散模型损失函数,并根据不同的任务进行调整。
📊 实验亮点
DiffusionSat在多个卫星图像生成任务上取得了显著的性能提升。例如,在时间生成任务中,DiffusionSat生成的图像在视觉质量和定量指标上均优于现有的GAN模型。在超分辨率任务中,DiffusionSat能够生成更清晰、更真实的图像细节。此外,DiffusionSat还成功应用于图像修复任务,能够有效地恢复图像中的缺失区域。
🎯 应用场景
DiffusionSat具有广泛的应用前景,包括环境监测、农业产量预测、城市规划、灾害评估等领域。它可以用于生成缺失的卫星图像,提高图像分辨率,预测未来的图像,从而为决策提供支持。此外,DiffusionSat还可以用于生成合成数据,以增强现有模型的训练效果。
📄 摘要(原文)
Diffusion models have achieved state-of-the-art results on many modalities including images, speech, and video. However, existing models are not tailored to support remote sensing data, which is widely used in important applications including environmental monitoring and crop-yield prediction. Satellite images are significantly different from natural images -- they can be multi-spectral, irregularly sampled across time -- and existing diffusion models trained on images from the Web do not support them. Furthermore, remote sensing data is inherently spatio-temporal, requiring conditional generation tasks not supported by traditional methods based on captions or images. In this paper, we present DiffusionSat, to date the largest generative foundation model trained on a collection of publicly available large, high-resolution remote sensing datasets. As text-based captions are sparsely available for satellite images, we incorporate the associated metadata such as geolocation as conditioning information. Our method produces realistic samples and can be used to solve multiple generative tasks including temporal generation, superresolution given multi-spectral inputs and in-painting. Our method outperforms previous state-of-the-art methods for satellite image generation and is the first large-scale generative foundation model for satellite imagery. The project website can be found here: https://samar-khanna.github.io/DiffusionSat/