Geo-R1: Unlocking VLM Geospatial Reasoning with Cross-View Reinforcement Learning

📄 arXiv: 2510.00072v1 📥 PDF

作者: Chenhui Xu, Fuxun Yu, Michael J. Bianco, Jacob Kovarskiy, Raphael Tang, Qi Zhang, Zirui Xu, Will LeVine, Brandon Dubbs, Heming Liao, Cassandra Burgess, Suvam Bag, Jay Patravali, Rupanjali Kukal, Mikael Figueroa, Rishi Madhok, Nikolaos Karianakis, Jinjun Xiong

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-09-29

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

Geo-R1:通过跨视角强化学习解锁视觉语言模型中的地理空间推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 地理空间推理 视觉语言模型 强化学习 跨视角学习 思维链 后训练 GRPO 多模态学习

📋 核心要点

  1. 现有视觉语言模型在地理空间推理方面存在不足,缺乏将视觉信息与地理知识有效结合的能力。
  2. Geo-R1通过思维脚手架和跨视角强化学习,引导模型学习地理空间推理模式,提升模型理解和利用地理信息的能力。
  3. Geo-R1在多个地理空间推理基准测试中取得了领先的性能,证明了其在提升模型地理空间理解方面的有效性。

📝 摘要(中文)

本文提出了Geo-R1,一个以推理为中心的后训练框架,旨在通过结合思维脚手架和提升策略,解锁视觉语言模型中的地理空间推理能力。在脚手架阶段,Geo-R1通过在合成的思维链示例上进行监督微调,灌输一种“地理空间思维模式”,使模型能够在无需昂贵的人工推理标注的情况下,将视觉线索与地理先验知识联系起来。在提升阶段,它在弱监督的跨视角配对代理上使用基于GRPO的强化学习。这种设计提供了一个可验证且可扩展的奖励信号:教导模型捕获和协调跨模态的特征,并利用推理来实现准确的预测。Geo-R1将地理空间建模从领域预训练/监督微调扩展到推理优先的后训练,并在各种地理空间推理基准测试中实现了最先进的性能。我们的模型可在https://huggingface.co/miniHui/Geo-R1上获取。

🔬 方法详解

问题定义:现有的视觉语言模型在处理地理空间推理任务时,往往难以有效地将视觉信息与地理知识进行关联,导致推理精度不高。缺乏有效的训练方法来引导模型学习地理空间推理的逻辑和模式,是当前方法的主要痛点。

核心思路:Geo-R1的核心思路是分阶段地提升视觉语言模型的地理空间推理能力。首先,通过监督微调,让模型学习一种“地理空间思维模式”,建立视觉线索与地理先验知识的联系。然后,利用强化学习,鼓励模型学习跨视角特征的捕获和协调,从而实现更准确的预测。这种分阶段的方法旨在逐步提升模型的推理能力,并利用可验证的奖励信号来指导模型的学习。

技术框架:Geo-R1的整体框架包含两个主要阶段:脚手架阶段和提升阶段。在脚手架阶段,使用合成的思维链示例进行监督微调,使模型具备初步的地理空间推理能力。在提升阶段,使用基于GRPO的强化学习,在弱监督的跨视角配对代理上进行训练,进一步提升模型的推理精度。该框架利用跨视角信息作为奖励信号,引导模型学习更有效的特征表示和推理策略。

关键创新:Geo-R1的关键创新在于提出了一个以推理为中心的后训练框架,将地理空间建模从传统的预训练/微调范式扩展到推理优先的后训练。通过结合思维脚手架和跨视角强化学习,Geo-R1能够有效地提升视觉语言模型的地理空间推理能力,而无需大量的人工推理标注。

关键设计:Geo-R1的关键设计包括:1) 使用合成的思维链示例进行监督微调,以灌输“地理空间思维模式”;2) 使用基于GRPO的强化学习,利用跨视角配对代理作为奖励信号;3) 设计合适的奖励函数,鼓励模型捕获和协调跨模态的特征。

📊 实验亮点

Geo-R1在多个地理空间推理基准测试中取得了最先进的性能,显著优于现有的视觉语言模型。具体性能数据和对比基线在论文中有详细展示,证明了Geo-R1在提升模型地理空间理解方面的有效性。通过推理优先的后训练,Geo-R1能够更好地利用视觉和地理信息,实现更准确的预测。

🎯 应用场景

Geo-R1具有广泛的应用前景,例如在自动驾驶、城市规划、环境监测、灾害救援等领域。它可以帮助机器更好地理解和利用地理空间信息,从而做出更准确的决策。例如,在自动驾驶中,Geo-R1可以帮助车辆理解周围环境,从而实现更安全的导航。在灾害救援中,它可以帮助救援人员快速定位受灾区域,从而提高救援效率。

📄 摘要(原文)

We introduce Geo-R1, a reasoning-centric post-training framework that unlocks geospatial reasoning in vision-language models by combining thinking scaffolding and elevating. In the scaffolding stage, Geo-R1 instills a ``geospatial thinking paradigm" via supervised fine-tuning on synthetic chain-of-thought exemplars, enabling models to connect visual cues with geographic priors without costly human reasoning annotations. In the elevating stage, it uses GRPO-based reinforcement learning on a weakly-supervised cross-view pairing proxy. This design supplies a verifiable and scalable reward signal: teaching models to capture and reconcile features across modalities, and harnessing reasoning for accurate prediction. Geo-R1 extends geospatial modeling from domain pretraining / supervised finetuning to reasoning-first post-training, and achieves state-of-the-art performance across various geospatial reasoning benchmarks. Our model is available at https://huggingface.co/miniHui/Geo-R1.