From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning
作者: Ruilin Luo, Chufan Shi, Yizhen Zhang, Cheng Yang, Songtao Jiang, Tongkun Guan, Ruizhe Chen, Ruihang Chu, Peng Wang, Mingkun Yang, Yujiu Yang, Junyang Lin, Zhibo Yang
分类: cs.CV, cs.AI
发布日期: 2026-03-04
备注: ICLR 2026 Poster
🔗 代码/项目: GITHUB
💡 一句话要点
提出AVAR框架,解决多模态大模型冷启动阶段的注意力分配问题,显著提升推理性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 冷启动 注意力机制 视觉锚定 数据合成 奖励塑造 大型语言模型
📋 核心要点
- 现有多模态大模型冷启动阶段的机制尚不明确,导致模型无法有效利用视觉信息进行推理。
- 论文提出AVAR框架,通过视觉锚定数据合成、注意力引导目标和视觉锚定奖励塑造,优化冷启动阶段的注意力分配。
- 实验表明,AVAR框架应用于Qwen2.5-VL-7B模型,在多个多模态推理基准测试中平均提升7.0%。
📝 摘要(中文)
冷启动初始化阶段在训练多模态大型推理模型(MLRMs)中起着关键作用,但其机制仍未被充分理解。为了分析这个阶段,我们引入了视觉注意力分数(VAS),这是一个基于注意力的指标,用于量化模型对视觉token的关注程度。我们发现推理性能与VAS密切相关(r=0.9616):具有较高VAS的模型实现了更强的多模态推理能力。令人惊讶的是,多模态冷启动未能提升VAS,导致注意力分布接近于基础模型,而仅文本冷启动则导致了明显的提升。我们将这种违反直觉的现象称为“惰性注意力定位”。为了验证其因果作用,我们设计了无需训练的干预措施,可以直接调节推理过程中的注意力分配,在不进行任何重新训练的情况下获得1-2%的性能提升。基于这些见解,我们进一步提出了注意力引导的视觉锚定和反射(AVAR),这是一个综合性的冷启动框架,集成了视觉锚定数据合成、注意力引导目标和视觉锚定奖励塑造。应用于Qwen2.5-VL-7B,AVAR在7个多模态推理基准测试中平均获得了7.0%的提升。消融研究进一步证实了AVAR的每个组成部分都逐步贡献于整体收益。代码、数据和模型可在https://github.com/lrlbbzl/Qwen-AVAR上找到。
🔬 方法详解
问题定义:多模态大型推理模型(MLRMs)的冷启动阶段至关重要,但现有的冷启动方法未能有效提升模型对视觉信息的关注度,导致“惰性注意力定位”现象,即模型无法充分利用视觉信息进行推理,从而限制了多模态推理性能。现有方法缺乏对注意力机制的深入理解和有效引导。
核心思路:论文的核心思路是通过注意力引导的方式,显式地提升模型在冷启动阶段对视觉信息的关注度。具体来说,通过视觉锚定数据合成,生成更具视觉信息的数据;通过注意力引导目标,鼓励模型关注关键视觉区域;通过视觉锚定奖励塑造,强化模型对视觉信息的利用。这样设计的目的是克服“惰性注意力定位”现象,使模型能够更好地利用视觉信息进行推理。
技术框架:AVAR框架包含三个主要组成部分:1) 视觉锚定数据合成:生成包含关键视觉信息的合成数据,用于冷启动训练;2) 注意力引导目标:设计损失函数,引导模型关注与推理任务相关的视觉区域;3) 视觉锚定奖励塑造:使用奖励函数,鼓励模型利用视觉信息进行推理。整个流程首先使用视觉锚定数据进行预训练,然后使用注意力引导目标进行微调,最后使用视觉锚定奖励进行强化学习。
关键创新:论文最重要的技术创新点在于提出了注意力引导的冷启动框架AVAR,该框架能够有效地提升模型在冷启动阶段对视觉信息的关注度,从而显著提升多模态推理性能。与现有方法相比,AVAR框架更加关注注意力机制的引导,能够更有效地克服“惰性注意力定位”现象。
关键设计:在视觉锚定数据合成方面,使用了图像编辑和文本描述生成技术,生成包含关键视觉信息的合成数据。在注意力引导目标方面,使用了交叉熵损失和KL散度损失,鼓励模型关注与推理任务相关的视觉区域。在视觉锚定奖励塑造方面,使用了基于视觉信息的奖励函数,鼓励模型利用视觉信息进行推理。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
AVAR框架应用于Qwen2.5-VL-7B模型,在7个多模态推理基准测试中平均获得了7.0%的性能提升。消融研究表明,AVAR框架的每个组成部分都对性能提升有贡献。此外,论文还通过无需训练的干预措施,直接调节推理过程中的注意力分配,在不进行任何重新训练的情况下获得了1-2%的性能提升,验证了“惰性注意力定位”现象的因果作用。
🎯 应用场景
该研究成果可应用于各种需要多模态推理的场景,例如智能问答、视觉对话、图像理解等。通过提升模型对视觉信息的利用能力,可以提高这些应用场景的性能和用户体验。未来,该研究可以进一步扩展到其他模态,例如语音、视频等,从而构建更加强大的多模态推理系统。
📄 摘要(原文)
The cold-start initialization stage plays a pivotal role in training Multimodal Large Reasoning Models (MLRMs), yet its mechanisms remain insufficiently understood. To analyze this stage, we introduce the Visual Attention Score (VAS), an attention-based metric that quantifies how much a model attends to visual tokens. We find that reasoning performance is strongly correlated with VAS (r=0.9616): models with higher VAS achieve substantially stronger multimodal reasoning. Surprisingly, multimodal cold-start fails to elevate VAS, resulting in attention distributions close to the base model, whereas text-only cold-start leads to a clear increase. We term this counter-intuitive phenomenon Lazy Attention Localization. To validate its causal role, we design training-free interventions that directly modulate attention allocation during inference, performance gains of 1$-$2% without any retraining. Building on these insights, we further propose Attention-Guided Visual Anchoring and Reflection (AVAR), a comprehensive cold-start framework that integrates visual-anchored data synthesis, attention-guided objectives, and visual-anchored reward shaping. Applied to Qwen2.5-VL-7B, AVAR achieves an average gain of 7.0% across 7 multimodal reasoning benchmarks. Ablation studies further confirm that each component of AVAR contributes step-wise to the overall gains. The code, data, and models are available at https://github.com/lrlbbzl/Qwen-AVAR.