iDETEX: Empowering MLLMs for Intelligent DETailed EXplainable IQA

📄 arXiv: 2510.17332v1 📥 PDF

作者: Zhaoran Zhao, Xinli Yue, Jianhui Sun, Yuhao Xie, Tao Shao, Liangchao Yao, Fan Xia, Yuetang Deng

分类: cs.CV

发布日期: 2025-10-20

备注: Accepted to ICCV 2025 Workshop


💡 一句话要点

提出iDETEX,赋能多模态大语言模型实现智能、详细、可解释的图像质量评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像质量评估 多模态大语言模型 可解释性 质量定位 数据增强

📋 核心要点

  1. 现有IQA方法缺乏对图像质量的细粒度解释,难以满足实际应用中对可解释性的需求。
  2. iDETEX通过统一的多模态大语言模型,同时进行质量定位、感知和描述,实现详细且可解释的IQA。
  3. 在ViDA-UGC基准测试和ICCV MIPI 2025挑战赛中,iDETEX均取得领先成果,验证了其有效性。

📝 摘要(中文)

图像质量评估(IQA)已经从标量质量预测发展到更具可解释性、更符合人类评估范式的方向。本文提出了iDETEX,一个统一的多模态大语言模型(MLLM),旨在解决详细且可解释的IQA这一新兴挑战。iDETEX能够同时执行三个关键任务:质量定位、感知和描述。为了促进这些异构子任务之间的高效和可泛化训练,我们设计了一套特定于任务的离线增强模块和一个数据混合策略。此外,还辅以在线增强策略,以充分利用多源监督。我们在大规模ViDA-UGC基准上验证了我们的方法,iDETEX在所有子任务上都取得了最先进的性能。我们的模型在ICCV MIPI 2025详细图像质量评估挑战赛中名列第一,证明了其在提供准确和可解释的质量评估方面的有效性和鲁棒性。

🔬 方法详解

问题定义:现有图像质量评估方法主要输出单一质量评分,缺乏对图像质量问题的具体定位和解释,难以满足用户对可解释性和可信度的需求。现有方法难以同时兼顾质量定位、感知和描述三个关键任务。

核心思路:iDETEX的核心思路是利用多模态大语言模型(MLLM)的强大能力,将图像质量评估任务分解为质量定位、感知和描述三个子任务,并通过统一的模型框架进行学习。通过结合离线数据增强和在线增强策略,充分利用多源监督信息,提升模型在各个子任务上的性能和泛化能力。

技术框架:iDETEX采用统一的MLLM架构,包含视觉编码器、语言模型和多模态连接器。视觉编码器负责提取图像特征,语言模型负责生成质量描述,多模态连接器负责将视觉特征与语言模型连接起来。训练过程包括离线数据增强、数据混合和在线增强三个阶段。离线数据增强模块针对每个子任务生成增强数据,数据混合策略平衡不同子任务的数据比例,在线增强策略进一步提升模型性能。

关键创新:iDETEX的关键创新在于提出了一个统一的MLLM框架,能够同时执行质量定位、感知和描述三个任务,从而实现详细且可解释的IQA。此外,还设计了一套特定于任务的离线增强模块和数据混合策略,以及在线增强策略,以充分利用多源监督信息。与现有方法相比,iDETEX能够提供更丰富、更可信的图像质量评估结果。

关键设计:离线数据增强模块包括质量定位增强、感知增强和描述增强。数据混合策略采用加权采样方法,平衡不同子任务的数据比例。在线增强策略包括对抗训练和知识蒸馏。损失函数包括交叉熵损失、回归损失和对比损失。具体参数设置未知。

📊 实验亮点

iDETEX在ViDA-UGC基准测试中,在质量定位、感知和描述三个子任务上均取得了最先进的性能。此外,iDETEX在ICCV MIPI 2025详细图像质量评估挑战赛中名列第一,证明了其在实际应用中的有效性和鲁棒性。具体的性能提升数据未知。

🎯 应用场景

iDETEX可应用于图像编辑、图像增强、图像压缩等领域,为用户提供更智能、更可解释的质量评估结果。例如,在图像编辑过程中,iDETEX可以帮助用户定位图像质量问题,并提供相应的修复建议。在图像压缩过程中,iDETEX可以用于评估压缩算法的性能,并指导参数优化。该研究的未来影响在于推动IQA技术向更智能、更可解释的方向发展。

📄 摘要(原文)

Image Quality Assessment (IQA) has progressed from scalar quality prediction to more interpretable, human-aligned evaluation paradigms. In this work, we address the emerging challenge of detailed and explainable IQA by proposing iDETEX-a unified multimodal large language model (MLLM) capable of simultaneously performing three key tasks: quality grounding, perception, and description. To facilitate efficient and generalizable training across these heterogeneous subtasks, we design a suite of task-specific offline augmentation modules and a data mixing strategy. These are further complemented by online enhancement strategies to fully exploit multi-sourced supervision. We validate our approach on the large-scale ViDA-UGC benchmark, where iDETEX achieves state-of-the-art performance across all subtasks. Our model ranks first in the ICCV MIPI 2025 Detailed Image Quality Assessment Challenge, demonstrating its effectiveness and robustness in delivering accurate and interpretable quality assessments.