Mario: Multimodal Graph Reasoning with Large Language Models

📄 arXiv: 2603.05181v1 📥 PDF

作者: Yuanfu Sun, Kang Li, Pengkang Guo, Jiajin Liu, Qiaoyu Tan

分类: cs.CV

发布日期: 2026-03-05

备注: CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出Mario框架以解决多模态图推理中的一致性与偏好问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 图神经网络 大型语言模型 跨模态学习 视觉-语言模型

📋 核心要点

  1. 现有方法在处理多模态数据时,往往忽视了数据之间的关系结构,导致推理效果不佳。
  2. 提出的Mario框架通过图条件的VLM设计和模态自适应图指令调优机制,解决了跨模态一致性和模态偏好问题。
  3. 实验结果显示,Mario在多个基准测试中均超越了现有图模型,尤其在无监督场景下表现突出。

📝 摘要(中文)

近年来,大型语言模型(LLMs)的进展为多模态推理开辟了新途径。然而,大多数现有方法仍依赖于预训练的视觉-语言模型(VLMs)独立编码图像-文本对,忽视了真实世界多模态数据的关系结构。为此,本文提出了Mario,一个统一框架,旨在解决多模态图(MMGs)上的推理问题。Mario通过图条件的VLM设计和模态自适应图指令调优机制,克服了跨模态一致性弱和异构模态偏好的挑战。大量实验表明,Mario在节点分类和链接预测任务中,均优于现有最先进的图模型。

🔬 方法详解

问题定义:本文旨在解决多模态图推理中的两个主要挑战:跨模态一致性弱和异构模态偏好。现有方法通常依赖于独立的视觉-语言模型,无法有效利用多模态数据的关系结构。

核心思路:Mario框架通过图条件的VLM设计和模态自适应图指令调优机制,联合优化文本和视觉特征,提升跨模态推理的效果。

技术框架:Mario的整体架构包括两个主要阶段:首先是图条件的VLM设计,通过细粒度的跨模态对比学习来优化特征;其次是模态自适应图指令调优机制,将对齐的多模态特征组织成图感知的指令视图,并使用可学习的路由器为每个节点及其邻域选择最具信息量的模态配置。

关键创新:Mario的创新在于其同时解决了跨模态一致性和模态偏好问题,通过图结构引导的学习方式,显著提升了多模态推理的效果,与传统方法相比具有本质区别。

关键设计:在设计中,采用了细粒度的对比损失函数来优化特征的对齐,同时在模态自适应调优中引入了可学习的路由器,以动态选择最优的模态配置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在多个多模态图基准测试中,Mario在节点分类和链接预测任务上均表现出色,超越了现有最先进的图模型,尤其在无监督场景下,性能提升幅度达到XX%。

🎯 应用场景

Mario框架在多模态推理领域具有广泛的应用潜力,特别是在需要处理复杂关系数据的场景,如社交网络分析、推荐系统和智能问答等。其创新的设计能够提升多模态数据的理解和处理能力,未来可能推动相关领域的进一步发展。

📄 摘要(原文)

Recent advances in large language models (LLMs) have opened new avenues for multimodal reasoning. Yet, most existing methods still rely on pretrained vision-language models (VLMs) to encode image-text pairs in isolation, ignoring the relational structure that real-world multimodal data naturally form. This motivates reasoning on multimodal graphs (MMGs), where each node has textual and visual attributes and edges provide structural cues. Enabling LLM-based reasoning on such heterogeneous multimodal signals while preserving graph topology introduces two key challenges: resolving weak cross-modal consistency and handling heterogeneous modality preference. To address this, we propose Mario, a unified framework that simultaneously resolves the two above challenges and enables effective LLM-based reasoning over MMGs. Mario consists of two innovative stages. Firstly, a graph-conditioned VLM design that jointly refines textual and visual features through fine-grained cross-modal contrastive learning guided by graph topology. Secondly, a modality-adaptive graph instruction tuning mechanism that organizes aligned multimodal features into graph-aware instruction views and employs a learnable router to surface, for each node and its neighborhood, the most informative modality configuration to the LLM. Extensive experiments across diverse MMG benchmarks demonstrate that Mario consistently outperforms state-of-the-art graph models in both supervised and zero-shot scenarios for node classification and link prediction. The code will be made available at https://github.com/sunyuanfu/Mario.