Universal Pansharpening Foundation Model
作者: Hebaixu Wang, Jing Zhang, Haonan Guo, Di Wang, Jiayi Ma, Bo Du, Liangpei Zhang
分类: cs.CV
发布日期: 2026-03-04
💡 一句话要点
提出FoundPS通用Pansharpening基础模型,实现卫星无关和场景鲁棒的图像融合。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Pansharpening 图像融合 遥感图像 Transformer 扩散模型 基础模型 多光谱图像 全色图像
📋 核心要点
- 现有Pansharpening方法泛化性差,难以适应不同卫星传感器和复杂场景。
- FoundPS通过模态交错Transformer和潜在扩散桥模型,实现卫星无关和场景鲁棒的图像融合。
- PSBench基准测试表明,FoundPS在各种Pansharpening任务中显著优于现有方法。
📝 摘要(中文)
Pansharpening通过融合纹理丰富的全色(PAN)图像的空间细节和低分辨率多光谱(MS)图像的光谱属性来生成高分辨率MS图像。现有方法主要针对特定卫星和场景,严重限制了它们在异构传感器和不同场景中的泛化能力,从而降低了实际应用价值。为了解决这些挑战,我们提出了FoundPS,一个通用的Pansharpening基础模型,用于卫星无关和场景鲁棒的融合。具体来说,我们引入了一种模态交错Transformer,学习波段级的模态专业化,形成可逆的光谱仿射基,通过张量乘法将任意波段的MS映射到统一的潜在空间。在此基础上,我们构建了一个潜在扩散桥模型来逐步演化潜在表示,并结合桥后验采样将潜在扩散与像素空间观测相结合,实现稳定和可控的融合。此外,我们设计了无限维像素到潜在的交互机制,以全面捕捉PAN观测和MS表示之间的跨域依赖关系,从而促进互补信息融合。此外,为了支持大规模训练和评估,我们构建了一个全面的Pansharpening基准,称为PSBench,由来自多个卫星跨越不同场景的全球MS和PAN图像对组成。大量实验表明,FoundPS始终优于最先进的方法,在各种Pansharpening任务中表现出卓越的泛化性和鲁棒性。
🔬 方法详解
问题定义:Pansharpening旨在融合低分辨率多光谱图像(MS)和高分辨率全色图像(PAN),生成高分辨率多光谱图像。现有方法通常针对特定卫星和场景设计,缺乏跨传感器和跨场景的泛化能力,限制了其在实际遥感应用中的价值。这些方法难以有效处理不同传感器之间的光谱差异和不同场景的复杂纹理信息。
核心思路:FoundPS的核心思路是构建一个通用的Pansharpening基础模型,通过学习统一的潜在空间表示,实现卫星无关和场景鲁棒的图像融合。该模型利用模态交错Transformer学习波段级的模态专业化,将不同波段的MS图像映射到统一的潜在空间,并通过潜在扩散桥模型逐步演化潜在表示,从而实现高质量的图像融合。
技术框架:FoundPS的整体框架包括以下几个主要模块:1) 模态交错Transformer:用于学习波段级的模态专业化,将MS图像映射到统一的潜在空间。2) 潜在扩散桥模型:用于逐步演化潜在表示,实现图像融合。3) 桥后验采样:用于将潜在扩散与像素空间观测相结合,实现稳定和可控的融合。4) 无限维像素到潜在的交互机制:用于捕捉PAN观测和MS表示之间的跨域依赖关系。
关键创新:FoundPS的关键创新在于以下几个方面:1) 提出了模态交错Transformer,能够有效学习波段级的模态专业化。2) 构建了潜在扩散桥模型,能够逐步演化潜在表示,实现高质量的图像融合。3) 设计了无限维像素到潜在的交互机制,能够全面捕捉PAN观测和MS表示之间的跨域依赖关系。4) 构建了大规模的Pansharpening基准PSBench,为模型训练和评估提供了数据支持。
关键设计:在模态交错Transformer中,采用了band-wise modal specializations来学习不同波段的特征。潜在扩散桥模型使用了bridge posterior sampling来耦合潜在扩散与像素空间观测。无限维像素到潜在的交互机制通过cross-domain dependencies来促进互补信息融合。PSBench基准包含了来自多个卫星跨越不同场景的全球MS和PAN图像对,支持大规模训练和评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FoundPS在多个Pansharpening数据集上 consistently outperform 了 state-of-the-art 方法,展现出卓越的泛化性和鲁棒性。例如,在PSBench基准测试中,FoundPS在多个指标上取得了显著提升,尤其是在处理异构传感器数据和复杂场景时,性能优势更加明显。具体性能数据未在摘要中给出,需要参考论文正文。
🎯 应用场景
FoundPS可广泛应用于遥感图像处理领域,例如地物分类、变化检测、环境监测和灾害评估等。其卫星无关和场景鲁棒的特性使其能够处理来自不同传感器的遥感数据,提高遥感应用的自动化程度和效率。未来,该模型可以进一步扩展到其他遥感图像融合任务,例如高光谱图像超分辨率和多源遥感数据融合。
📄 摘要(原文)
Pansharpening generates the high-resolution multi-spectral (MS) image by integrating spatial details from a texture-rich panchromatic (PAN) image and spectral attributes from a low-resolution MS image. Existing methods are predominantly satellite-specific and scene-dependent, which severely limits their generalization across heterogeneous sensors and varied scenes, thereby reducing their real-world practicality. To address these challenges, we present FoundPS, a universal pansharpening foundation model for satellite-agnostic and scene-robust fusion. Specifically, we introduce a modality-interleaved transformer that learns band-wise modal specializations to form reversible spectral affine bases, mapping arbitrary-band MS into a unified latent space via tensor multiplication. Building upon this, we construct a latent diffusion bridge model to progressively evolve latent representations, and incorporate bridge posterior sampling to couple latent diffusion with pixel-space observations, enabling stable and controllable fusion. Furthermore, we devise infinite-dimensional pixel-to-latent interaction mechanisms to comprehensively capture the cross-domain dependencies between PAN observations and MS representations, thereby facilitating complementary information fusion. In addition, to support large-scale training and evaluation, we construct a comprehensive pansharpening benchmark, termed PSBench, consisting of worldwide MS and PAN image pairs from multiple satellites across diverse scenes. Extensive experiments demonstrate that FoundPS consistently outperforms state-of-the-art methods, exhibiting superior generalization and robustness across a wide range of pansharpening tasks.