UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

📄 arXiv: 2603.05075v1 📥 PDF

作者: Yanlin Li, Minghui Guo, Kaiwen Zhang, Shize Zhang, Yiran Zhao, Haodong Li, Congyue Zhou, Weijie Zheng, Yushen Yan, Shengqiong Wu, Wei Ji, Lei Cui, Furu Wei, Hao Fei, Mong-Li Lee, Wynne Hsu

分类: cs.CV

发布日期: 2026-03-05

备注: 70 pages, 63 figures, 30 tables, CVPR

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

UniM:一个统一的任意到任意交错多模态基准,旨在推进多模态大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 多模态大语言模型 统一基准 交错多模态 任意到任意 多模态数据集 Agentic模型

📋 核心要点

  1. 现有MLLM难以处理真实世界中任意组合和交错的多模态输入与输出,缺乏统一的理解和生成范式。
  2. UniM基准通过构建包含多种模态和复杂交互的数据集,并提出相应的评估指标,来推动MLLM的发展。
  3. UniMA模型作为基线,通过可追踪的推理过程,实现了结构化的交错生成,为后续研究提供了参考。

📝 摘要(中文)

本文提出了UniM基准,这是首个统一的任意到任意交错多模态数据集,旨在促进和评估多模态大语言模型(MLLM)在理解和生成方面的能力。在实际的多模态应用中,系统通常需要理解来自用户的任意组合和交错的多模态输入,并以任何交错的多媒体形式生成输出。UniM包含30个领域和7种代表性模态(文本、图像、音频、视频、文档、代码和3D)的31K高质量实例,每个实例都需要多个交织的推理和生成能力。此外,我们还引入了UniM评估套件,该套件从三个维度评估模型:语义正确性与生成质量、响应结构完整性和交错连贯性。此外,我们提出了UniMA,一个具有可追踪推理的agentic基线模型,用于结构化的交错生成。全面的实验证明了UniM的难度,并突出了推进统一的任意到任意多模态智能的关键挑战和方向。

🔬 方法详解

问题定义:现有的大型多模态语言模型(MLLM)在处理真实世界场景中,用户提供的任意组合和交错的多模态输入时面临挑战。这些模型通常难以同时理解和生成多种模态交错的输出,缺乏一个统一的框架来处理任意模态间的转换和交互。现有的数据集和评估方法也难以全面衡量模型在这些复杂场景下的性能。

核心思路:UniM的核心思路是构建一个统一的、任意到任意的多模态学习范式。通过创建一个包含多种模态(文本、图像、音频、视频、文档、代码和3D)交错出现的数据集,并设计相应的评估指标,来促使MLLM能够更好地理解和生成任意模态组合的输入和输出。这种设计旨在模拟真实世界中复杂的多模态交互场景,从而推动MLLM在实际应用中的发展。

技术框架:UniM基准包含一个大规模的多模态数据集和一个评估套件。数据集包含31K个高质量实例,涵盖30个领域,涉及7种模态。评估套件从三个维度评估模型性能:语义正确性与生成质量、响应结构完整性和交错连贯性。此外,论文还提出了一个名为UniMA的agentic基线模型,该模型具有可追踪的推理过程,用于结构化的交错生成。UniMA模型可以作为未来研究的起点,用于探索更有效的多模态学习方法。

关键创新:UniM的关键创新在于其统一的任意到任意多模态学习范式。与以往专注于特定模态组合或任务的数据集不同,UniM支持任意模态的输入和输出,并鼓励模型学习通用的多模态理解和生成能力。此外,UniM评估套件提供了一个全面的评估框架,可以衡量模型在语义、结构和连贯性等多个方面的性能。UniMA模型则展示了如何通过可追踪的推理过程来实现结构化的交错生成。

关键设计:UniM数据集的设计考虑了多种因素,包括模态的多样性、领域的覆盖范围和实例的质量。数据集中的每个实例都包含多个交织的推理和生成任务,旨在挑战模型的推理和生成能力。UniM评估套件采用了多种评估指标,包括自动评估指标和人工评估指标,以全面衡量模型性能。UniMA模型采用了agentic架构,通过可追踪的推理过程来实现结构化的交错生成。具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细描述,属于未来的研究方向。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UniM数据集具有很高的难度,现有的MLLM模型在UniM上的性能仍有很大的提升空间。UniMA模型作为基线,在UniM上取得了一定的成果,但仍面临着语义理解、结构化生成和交错连贯性等方面的挑战。这些实验结果为未来的研究提供了重要的参考,并指明了多模态学习的发展方向。

🎯 应用场景

UniM的研究成果可广泛应用于多模态人机交互、智能助手、跨媒体内容生成等领域。例如,用户可以通过语音、图像和文本的组合来与智能助手进行交互,并获得包含多种模态信息的反馈。该研究有助于提升多模态系统的智能化水平,使其能够更好地理解和响应用户的需求,从而改善用户体验。

📄 摘要(原文)

In real-world multimodal applications, systems usually need to comprehend arbitrarily combined and interleaved multimodal inputs from users, while also generating outputs in any interleaved multimedia form. This capability defines the goal of any-to-any interleaved multimodal learning under a unified paradigm of understanding and generation, posing new challenges and opportunities for advancing Multimodal Large Language Models (MLLMs). To foster and benchmark this capability, this paper introduces the UniM benchmark, the first Unified Any-to-Any Interleaved Multimodal dataset. UniM contains 31K high-quality instances across 30 domains and 7 representative modalities: text, image, audio, video, document, code, and 3D, each requiring multiple intertwined reasoning and generation capabilities. We further introduce the UniM Evaluation Suite, which assesses models along three dimensions: Semantic Correctness & Generation Quality, Response Structure Integrity, and Interleaved Coherence. In addition, we propose UniMA, an agentic baseline model equipped with traceable reasoning for structured interleaved generation. Comprehensive experiments demonstrate the difficulty of UniM and highlight key challenges and directions for advancing unified any-to-any multimodal intelligence. The project page is https://any2any-mllm.github.io/unim.