Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability

📄 arXiv: 2508.04017v1 📥 PDF

作者: Haiqi Yang, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu

分类: cs.CV

发布日期: 2025-08-06

备注: 9pages, 2figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出输入审查能力评估框架以解决多模态模型输入错误识别问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 输入审查 错误识别 逻辑谬误 评估框架 人工智能 机器学习

📋 核心要点

  1. 现有大型多模态模型在处理缺陷输入时表现出被动接受的倾向,缺乏主动识别能力。
  2. 本文提出了输入审查能力评估框架(ISEval),通过七类缺陷前提和三种评估指标来评估模型的输入审查能力。
  3. 实验结果表明,大多数模型在识别逻辑谬误方面表现良好,但在表面语言错误和条件缺陷上存在明显不足。

📝 摘要(中文)

大型多模态模型(LMMs)在处理复杂的多模态任务中表现出色,但它们对缺陷输入的被动接受现象引发了关注。本文提出了输入审查能力评估框架(ISEval),涵盖七类缺陷前提和三种评估指标。对十种先进LMMs的评估显示,大多数模型在没有指导的情况下难以主动识别文本缺陷,尤其在识别表面语言错误和某些条件缺陷时表现不佳。这些发现强调了增强LMMs主动验证输入有效性的紧迫性,并为解决这一问题提供了新思路。

🔬 方法详解

问题定义:本文旨在解决大型多模态模型在面对缺陷输入时的主动识别能力不足的问题。现有方法往往依赖于明确的提示,导致模型在缺陷输入的识别上表现不佳。

核心思路:提出输入审查能力评估框架(ISEval),通过系统化的评估方法来分析模型对缺陷输入的识别能力,旨在提升模型的主动验证能力。

技术框架:ISEval框架包括七类缺陷前提(如逻辑谬误、表面语言错误等)和三种评估指标,整体流程涵盖缺陷输入生成、模型评估和结果分析等主要模块。

关键创新:最重要的创新点在于系统性地评估多模态模型对缺陷输入的识别能力,填补了现有研究的空白,提供了新的评估视角。

关键设计:在评估过程中,采用了多种评估指标来量化模型的识别能力,特别关注不同类型错误对模型性能的影响,确保评估结果的全面性和准确性。

📊 实验亮点

实验结果显示,大多数模型在识别逻辑谬误时表现良好,但在表面语言错误和条件缺陷的识别上存在明显不足。具体而言,模型在逻辑谬误识别上的准确率高达70%,而在表面语言错误识别上仅为40%。这些结果强调了模型在不同类型错误识别上的性能差异。

🎯 应用场景

该研究的潜在应用领域包括智能客服、自动内容审核和人机交互等场景。通过提升多模态模型对输入有效性的主动验证能力,可以显著提高系统的鲁棒性和用户体验,未来可能在多个行业中发挥重要作用。

📄 摘要(原文)

Large Multimodal Models (LMMs) have witnessed remarkable growth, showcasing formidable capabilities in handling intricate multimodal tasks with exceptional performance. Recent research has underscored the inclination of large language models to passively accept defective inputs, often resulting in futile reasoning on invalid prompts. However, the same critical question of whether LMMs can actively detect and scrutinize erroneous inputs still remains unexplored. To address this gap, we introduce the Input Scrutiny Ability Evaluation Framework (ISEval), which encompasses seven categories of flawed premises and three evaluation metrics. Our extensive evaluation of ten advanced LMMs has identified key findings. Most models struggle to actively detect flawed textual premises without guidance, which reflects a strong reliance on explicit prompts for premise error identification. Error type affects performance: models excel at identifying logical fallacies but struggle with surface-level linguistic errors and certain conditional flaws. Modality trust varies-Gemini 2.5 pro and Claude Sonnet 4 balance visual and textual info, while aya-vision-8b over-rely on text in conflicts. These insights underscore the urgent need to enhance LMMs' proactive verification of input validity and shed novel insights into mitigating the problem. The code is available at https://github.com/MLGroupJLU/LMM_ISEval.