Fusion to Enhance: Fusion Visual Encoder to Enhance Multimodal Language Model

📄 arXiv: 2509.00664v1 📥 PDF

作者: Yifei She, Huangxuan Wu

分类: cs.CV, cs.AI

发布日期: 2025-08-31


💡 一句话要点

提出Fusion to Enhance以解决多模态语言模型的视觉感知瓶颈问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大型语言模型 视觉感知 细粒度理解 特征融合 多头交叉注意力

📋 核心要点

  1. 现有的多模态语言模型在复杂语义理解上表现优异,但在基本视觉任务中却存在显著不足,主要源于单一视觉编码器的设计。
  2. 本文提出的Fusion to Enhance框架通过组合锚编码器与增强编码器,利用多头交叉注意力机制,增强了模型的视觉感知能力。
  3. 实验结果显示,FtZ在TextVQA、POPE、MMMU、MME和MM-Vet等多个基准测试中,性能显著优于传统单一编码器和现有特征融合方法。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在视觉感知与高层次文本推理之间取得了显著进展。然而,这些模型在基本视觉任务上常常表现不佳,主要由于依赖单一视觉编码器,导致无法捕捉细粒度的视觉信息。为了解决这一问题,本文提出了Fusion to Enhance(FtZ),一种新颖的视觉塔框架。FtZ通过轻量级的多头交叉注意力机制,将语义强大的锚编码器与感知丰富的增强编码器进行组合。实验结果表明,FtZ在多个需要细粒度视觉理解的基准测试中显著优于仅使用单一编码器或现有特征融合方法的基线模型。

🔬 方法详解

问题定义:本文旨在解决多模态大型语言模型在细粒度视觉任务中的表现不足,现有方法主要依赖单一视觉编码器,无法有效捕捉细节信息。

核心思路:提出Fusion to Enhance框架,通过组合语义强的锚编码器与感知丰富的增强编码器,利用多头交叉注意力机制,提升模型的视觉理解能力。

技术框架:FtZ框架包含两个主要模块:锚编码器负责高层次语义信息的提取,增强编码器则专注于细节感知,二者通过多头交叉注意力机制进行信息融合。

关键创新:最重要的创新在于打破了单一编码器的限制,通过异构专家编码器的组合,显著提升了模型在视觉感知方面的能力,与现有方法形成鲜明对比。

关键设计:在网络结构上,采用轻量级的多头交叉注意力机制,确保信息的高效融合,同时在损失函数设计上,注重细粒度信息的捕捉与语义一致性。

📊 实验亮点

在多个细粒度视觉理解的基准测试中,FtZ模型的表现超越了传统单一编码器和现有特征融合方法,具体在TextVQA等任务上提升幅度达到XX%,显示出其在视觉感知方面的显著优势。

🎯 应用场景

该研究的潜在应用场景包括智能视觉助手、自动驾驶系统、医疗影像分析等领域,能够显著提升多模态系统的视觉理解能力,推动下一代人工智能系统的发展。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have made significant progress in bridging visual perception with high-level textual reasoning. However, they face a fundamental contradiction: while excelling at complex semantic understanding, these models often fail at basic visual tasks that require precise detail perception. This deficiency primarily stems from the prevalent architectural reliance on a single vision encoder optimized for high-level semantic alignment, which inherently sacrifices the ability to capture fine-grained visual information. To address this issue, we introduce Fusion to Enhance (FtZ), a novel vision tower framework. FtZ moves beyond the single-encoder design by innovatively composing a semantically powerful anchor encoder with a perception-rich augmenting encoder via a lightweight Multi-Head Cross-Attention mechanism. Experimental results demonstrate that on several challenging benchmarks demanding fine-grained visual understanding, such as TextVQA, POPE, MMMU, MME and MM-Vet, our FtZ model significantly outperforms baselines that use only a single encoder or existing feature fusion methods. This work proves that composing heterogeneous expert encoders is an efficient and effective path to overcoming the visual perception bottleneck in current MLLMs, offering a new design paradigm for building next-generation AI systems with stronger perceptual capabilities.