From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

作者: Ruilin Luo, Chufan Shi, Yizhen Zhang, Cheng Yang, Songtao Jiang, Tongkun Guan, Ruizhe Chen, Ruihang Chu, Peng Wang, Mingkun Yang, Yujiu Yang, Junyang Lin, Zhibo Yang

分类: cs.CV, cs.AI

发布日期: 2026-03-04

备注: ICLR 2026 Poster

🔗 代码/项目: GITHUB

💡 一句话要点

提出AVAR框架，解决多模态大模型冷启动阶段的注意力分配问题，显著提升推理性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 冷启动 注意力机制 视觉锚定 数据合成 奖励塑造 大型语言模型

📋 核心要点

现有多模态大模型冷启动阶段的机制尚不明确，导致模型无法有效利用视觉信息进行推理。
论文提出AVAR框架，通过视觉锚定数据合成、注意力引导目标和视觉锚定奖励塑造，优化冷启动阶段的注意力分配。
实验表明，AVAR框架应用于Qwen2.5-VL-7B模型，在多个多模态推理基准测试中平均提升7.0%。

📝 摘要（中文）

冷启动初始化阶段在训练多模态大型推理模型(MLRMs)中起着关键作用，但其机制仍未被充分理解。为了分析这个阶段，我们引入了视觉注意力分数(VAS)，这是一个基于注意力的指标，用于量化模型对视觉token的关注程度。我们发现推理性能与VAS密切相关(r=0.9616)：具有较高VAS的模型实现了更强的多模态推理能力。令人惊讶的是，多模态冷启动未能提升VAS，导致注意力分布接近于基础模型，而仅文本冷启动则导致了明显的提升。我们将这种违反直觉的现象称为“惰性注意力定位”。为了验证其因果作用，我们设计了无需训练的干预措施，可以直接调节推理过程中的注意力分配，在不进行任何重新训练的情况下获得1-2%的性能提升。基于这些见解，我们进一步提出了注意力引导的视觉锚定和反射(AVAR)，这是一个综合性的冷启动框架，集成了视觉锚定数据合成、注意力引导目标和视觉锚定奖励塑造。应用于Qwen2.5-VL-7B，AVAR在7个多模态推理基准测试中平均获得了7.0%的提升。消融研究进一步证实了AVAR的每个组成部分都逐步贡献于整体收益。代码、数据和模型可在https://github.com/lrlbbzl/Qwen-AVAR上找到。

🔬 方法详解

问题定义：多模态大型推理模型(MLRMs)的冷启动阶段至关重要，但现有的冷启动方法未能有效提升模型对视觉信息的关注度，导致“惰性注意力定位”现象，即模型无法充分利用视觉信息进行推理，从而限制了多模态推理性能。现有方法缺乏对注意力机制的深入理解和有效引导。

核心思路：论文的核心思路是通过注意力引导的方式，显式地提升模型在冷启动阶段对视觉信息的关注度。具体来说，通过视觉锚定数据合成，生成更具视觉信息的数据；通过注意力引导目标，鼓励模型关注关键视觉区域；通过视觉锚定奖励塑造，强化模型对视觉信息的利用。这样设计的目的是克服“惰性注意力定位”现象，使模型能够更好地利用视觉信息进行推理。

技术框架：AVAR框架包含三个主要组成部分：1) 视觉锚定数据合成：生成包含关键视觉信息的合成数据，用于冷启动训练；2) 注意力引导目标：设计损失函数，引导模型关注与推理任务相关的视觉区域；3) 视觉锚定奖励塑造：使用奖励函数，鼓励模型利用视觉信息进行推理。整个流程首先使用视觉锚定数据进行预训练，然后使用注意力引导目标进行微调，最后使用视觉锚定奖励进行强化学习。

关键创新：论文最重要的技术创新点在于提出了注意力引导的冷启动框架AVAR，该框架能够有效地提升模型在冷启动阶段对视觉信息的关注度，从而显著提升多模态推理性能。与现有方法相比，AVAR框架更加关注注意力机制的引导，能够更有效地克服“惰性注意力定位”现象。

关键设计：在视觉锚定数据合成方面，使用了图像编辑和文本描述生成技术，生成包含关键视觉信息的合成数据。在注意力引导目标方面，使用了交叉熵损失和KL散度损失，鼓励模型关注与推理任务相关的视觉区域。在视觉锚定奖励塑造方面，使用了基于视觉信息的奖励函数，鼓励模型利用视觉信息进行推理。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

AVAR框架应用于Qwen2.5-VL-7B模型，在7个多模态推理基准测试中平均获得了7.0%的性能提升。消融研究表明，AVAR框架的每个组成部分都对性能提升有贡献。此外，论文还通过无需训练的干预措施，直接调节推理过程中的注意力分配，在不进行任何重新训练的情况下获得了1-2%的性能提升，验证了“惰性注意力定位”现象的因果作用。

🎯 应用场景

该研究成果可应用于各种需要多模态推理的场景，例如智能问答、视觉对话、图像理解等。通过提升模型对视觉信息的利用能力，可以提高这些应用场景的性能和用户体验。未来，该研究可以进一步扩展到其他模态，例如语音、视频等，从而构建更加强大的多模态推理系统。

📄 摘要（原文）

The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1$-$2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理