CRIT: Graph-Based Automatic Data Synthesis to Enhance Cross-Modal Multi-Hop Reasoning
作者: Junyoung Sung, Seungwoo Lyu, Minjun Kim, Sumin An, Arsha Nagrani, Paul Hongsuck Seo
分类: cs.LG, cs.CL
发布日期: 2026-04-02
备注: Accepted to CVPR 2026
💡 一句话要点
提出CRIT:一种基于图的自动数据合成方法,增强跨模态多跳推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨模态推理 多跳推理 数据合成 图神经网络 视觉-语言模型
📋 核心要点
- 现有视觉-语言模型在跨模态多跳推理方面存在不足,训练数据缺乏互补信息,导致模型容易产生幻觉。
- CRIT提出了一种基于图的自动数据合成管道,用于生成复杂的跨模态推理任务,涵盖多种模态和领域。
- 实验表明,在CRIT上训练的模型在跨模态多跳推理方面取得了显著提升,并在多个标准基准测试中表现出强大的改进。
📝 摘要(中文)
现实世界的推理通常需要在不同模态之间组合信息,例如在多跳过程中连接文本上下文和视觉线索。然而,大多数多模态基准测试未能捕捉到这种能力:它们通常依赖于单个图像或图像集,答案可以仅从单一模态中推断出来。这种局限性也反映在训练数据中,交错的图像-文本内容很少强制执行互补的多跳推理。因此,视觉-语言模型(VLM)经常产生幻觉,并产生视觉证据基础薄弱的推理轨迹。为了解决这个差距,我们引入了CRIT,这是一个新的数据集和基准,它使用基于图的自动管道来生成复杂的跨模态推理任务。CRIT包含来自自然图像、视频和富文本源等不同领域,并包括一个经过人工验证的测试集,用于可靠的评估。 在此基准上的实验表明,即使是最先进的模型也难以应对此类推理任务。 在CRIT上训练的模型在跨模态多跳推理方面表现出显着提升,包括在SPIQA和其他标准多模态基准上取得的显著改进。
🔬 方法详解
问题定义:现有视觉-语言模型在处理需要跨模态信息融合的多跳推理任务时表现不佳。主要原因是现有数据集通常只包含单模态信息或者模态间关联性较弱,无法有效训练模型进行复杂的推理。这导致模型在推理过程中容易产生幻觉,无法准确地基于视觉证据进行推理。
核心思路:CRIT的核心思路是利用图结构来自动构建包含复杂跨模态关系的数据集。通过构建图,可以显式地建模不同模态之间的连接和依赖关系,从而生成更具挑战性和信息量的推理任务。这种方法旨在强制模型学习如何有效地整合来自不同模态的信息,并进行多步推理。
技术框架:CRIT的整体框架包括以下几个主要模块:1) 图构建模块:从各种数据源(如自然图像、视频、文本)中提取信息,并构建一个图,其中节点表示实体或概念,边表示它们之间的关系。2) 问题生成模块:基于构建的图,自动生成需要跨模态推理的问题。这些问题通常需要模型在图上进行多跳遍历,才能找到答案。3) 答案生成模块:根据问题和图结构,自动生成对应的答案。4) 数据验证模块:对生成的数据进行人工验证,确保数据的质量和可靠性。
关键创新:CRIT的关键创新在于其基于图的自动数据合成管道。与以往手动构建数据集的方法相比,CRIT可以更高效地生成大规模、多样化的跨模态推理数据。此外,CRIT通过图结构显式地建模模态间的关系,使得生成的数据更具结构化和可解释性。
关键设计:CRIT的关键设计包括:1) 图结构的表示:选择合适的图结构表示方法,例如知识图谱或场景图,以有效地建模模态间的关系。2) 问题生成策略:设计多样化的提问方式,例如比较、推理、预测等,以增加任务的复杂性。3) 数据过滤和清洗:采用多种策略过滤和清洗生成的数据,例如基于规则的过滤、基于模型的过滤等,以提高数据的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在CRIT数据集上训练的模型在跨模态多跳推理任务上取得了显著提升。例如,在SPIQA基准测试中,使用CRIT训练的模型相比于基线模型取得了显著的性能提升。此外,实验还表明,CRIT数据集可以有效地提高模型在其他标准多模态基准测试上的泛化能力。
🎯 应用场景
CRIT的研究成果可应用于各种需要跨模态多跳推理的场景,例如智能问答系统、视觉导航、机器人任务规划等。通过提升模型在复杂推理任务上的能力,可以提高这些应用系统的智能化水平和用户体验。此外,CRIT提供的数据集和基准测试可以促进跨模态推理领域的研究进展。
📄 摘要(原文)
Real-world reasoning often requires combining information across modalities, connecting textual context with visual cues in a multi-hop process. Yet, most multimodal benchmarks fail to capture this ability: they typically rely on single images or set of images, where answers can be inferred from a single modality alone. This limitation is mirrored in the training data, where interleaved image-text content rarely enforces complementary, multi-hop reasoning. As a result, Vision-Language Models (VLMs) frequently hallucinate and produce reasoning traces poorly grounded in visual evidence. To address this gap, we introduce CRIT, a new dataset and benchmark built with a graph-based automatic pipeline for generating complex cross-modal reasoning tasks. CRIT consists of diverse domains ranging from natural images, videos, and text-rich sources, and includes a manually verified test set for reliable evaluation. Experiments on this benchmark reveal that even state-of-the-art models struggle on such reasoning tasks. Models trained on CRIT show significant gains in cross-modal multi-hop reasoning, including strong improvements on SPIQA and other standard multimodal benchmarks.