Decoding the Multimodal Maze: A Systematic Review on the Adoption of Explainability in Multimodal Attention-based Models

📄 arXiv: 2508.04427v1 📥 PDF

作者: Md Raisul Kibria, Sébastien Lafond, Janan Arslan

分类: cs.LG, cs.AI

发布日期: 2025-08-06


💡 一句话要点

系统评估多模态注意力模型的可解释性研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 可解释人工智能 注意力模型 系统评估 模型架构 评估方法 解释算法

📋 核心要点

  1. 现有多模态模型的可解释性研究主要集中在视觉-语言和语言单一模型,且解释方法未能充分捕捉模态间的交互。
  2. 本文通过系统性文献回顾,提出了一系列促进多模态XAI研究中评估和报告标准化的建议。
  3. 研究发现现有评估方法缺乏一致性和稳健性,影响了对多模态模型的理解和应用。

📝 摘要(中文)

多模态学习在近年来取得了显著进展,尤其是注意力模型的集成,推动了多种任务的性能提升。与此同时,对可解释人工智能(XAI)的需求促使了相关研究的增长,旨在解读这些模型复杂的决策过程。本文系统性回顾了2020年1月至2024年初间关于多模态模型可解释性的研究,分析了模型架构、涉及的模态、解释算法和评估方法等多个维度。研究发现,现有研究主要集中在视觉-语言和语言单一模型上,注意力技术是最常用的解释方法,但这些方法在捕捉模态间的交互方面存在不足。此外,XAI在多模态环境中的评估方法缺乏系统性,缺乏一致性和稳健性。基于这些发现,本文提出了一系列建议,以促进多模态XAI研究中严格、透明和标准化的评估与报告实践。

🔬 方法详解

问题定义:本文旨在解决多模态注意力模型的可解释性不足问题,现有方法在捕捉模态间交互方面存在局限性,评估方法缺乏系统性和一致性。

核心思路:通过系统性文献回顾,分析多模态模型的可解释性研究现状,提出改进评估和报告实践的建议,以促进更透明和标准化的研究。

技术框架:研究框架包括文献检索、分类和分析,重点关注模型架构、模态类型、解释算法及评估方法等多个维度。

关键创新:本文的创新在于系统性地整合了多模态模型的可解释性研究,识别了现有研究的不足,并提出了针对性的改进建议。

关键设计:在分析过程中,关注了不同模态的认知和上下文因素,强调了评估方法的多样性和一致性,推动了多模态XAI研究的标准化。

📊 实验亮点

研究表明,现有多模态模型的可解释性研究主要集中在视觉-语言和语言单一模型,且注意力技术是最常用的解释方法。然而,评估方法的缺乏系统性和一致性,限制了对模型决策过程的深入理解。本文提出的建议旨在提升未来研究的透明度和标准化。

🎯 应用场景

该研究的潜在应用领域包括医疗影像分析、自动驾驶、智能客服等多模态AI系统。通过提升模型的可解释性,可以增强用户对AI决策的信任,促进其在实际应用中的广泛采用。未来,该研究可能推动更负责任和可控的多模态AI发展。

📄 摘要(原文)

Multimodal learning has witnessed remarkable advancements in recent years, particularly with the integration of attention-based models, leading to significant performance gains across a variety of tasks. Parallel to this progress, the demand for explainable artificial intelligence (XAI) has spurred a growing body of research aimed at interpreting the complex decision-making processes of these models. This systematic literature review analyzes research published between January 2020 and early 2024 that focuses on the explainability of multimodal models. Framed within the broader goals of XAI, we examine the literature across multiple dimensions, including model architecture, modalities involved, explanation algorithms and evaluation methodologies. Our analysis reveals that the majority of studies are concentrated on vision-language and language-only models, with attention-based techniques being the most commonly employed for explanation. However, these methods often fall short in capturing the full spectrum of interactions between modalities, a challenge further compounded by the architectural heterogeneity across domains. Importantly, we find that evaluation methods for XAI in multimodal settings are largely non-systematic, lacking consistency, robustness, and consideration for modality-specific cognitive and contextual factors. Based on these findings, we provide a comprehensive set of recommendations aimed at promoting rigorous, transparent, and standardized evaluation and reporting practices in multimodal XAI research. Our goal is to support future research in more interpretable, accountable, and responsible mulitmodal AI systems, with explainability at their core.