Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites
作者: Lei Wang, Jiabang He, Shenshen Li, Ning Liu, Ee-Peng Lim
分类: cs.CV, cs.CL
发布日期: 2023-12-04
备注: MMM 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出ReCaption框架,通过重写Caption微调LVLM,缓解细粒度幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 细粒度幻觉 Caption重写 ChatGPT 指令调优
📋 核心要点
- 现有LVLM评估主要关注粗粒度幻觉,忽略了细粒度对象属性和行为的幻觉,导致评估不全面。
- ReCaption框架通过ChatGPT重写Caption,并在此基础上微调LVLM,旨在减少细粒度对象幻觉。
- 实验结果表明,ReCaption能有效减少细粒度对象幻觉,并提升LVLM的文本生成质量。
📝 摘要(中文)
大型语言模型(LLMs)在自然语言处理(NLP)任务中表现出了卓越的性能。为了理解和执行图像数据上的各种人类指令,研究者们引入了指令调优的大型视觉-语言模型(LVLMs)。然而,LVLMs可能会遭受不同类型的对象幻觉。目前,LVLMs仅针对粗粒度的对象幻觉进行评估(即,生成输入图像中不存在的对象)。图像中不存在的细粒度对象属性和行为可能仍然被生成,但当前的评估方法无法衡量。因此,本文侧重于减少LVLMs的细粒度幻觉。我们提出了一个名为 extit{ReCaption}的框架,该框架由两个组件组成:使用ChatGPT重写Caption,以及在重写的Caption上微调指令调优的LVLMs。我们还提出了一种基于细粒度探测的评估方法,名为 extit{细粒度对象幻觉评估}( extit{FGHE})。我们的实验结果表明,ReCaption有效地减少了不同LVLM选项的细粒度对象幻觉,并提高了它们的文本生成质量。代码可在https://github.com/Anonymousanoy/FOHE找到。
🔬 方法详解
问题定义:现有的大型视觉语言模型(LVLMs)在生成文本描述时,容易产生幻觉,即生成图像中不存在的对象或属性。现有的评估方法主要关注粗粒度的对象幻觉(例如,生成图像中完全不存在的对象),而忽略了细粒度的对象幻觉,例如生成对象错误的属性或行为(例如,图像中的猫是静止的,但模型描述为跳跃)。这种细粒度的幻觉难以被现有方法检测和缓解,影响了LVLM的可靠性和实用性。
核心思路:ReCaption的核心思路是利用ChatGPT的强大语言能力,对原始的图像Caption进行重写,生成更准确、更详细的描述,从而为LVLM提供更可靠的训练数据。通过在这些重写的Caption上进行微调,LVLM能够学习到更准确的对象属性和行为,从而减少细粒度幻觉的产生。这种方法的核心在于利用高质量的Caption来引导LVLM的学习,避免其产生错误的联想。
技术框架:ReCaption框架主要包含两个阶段:1) Caption重写阶段:使用ChatGPT对原始的图像Caption进行重写,生成更准确、更详细的描述。具体来说,将原始Caption输入ChatGPT,并提示其生成更符合图像内容的描述,尽可能避免出现幻觉。2) 微调阶段:使用重写后的Caption对指令调优的LVLM进行微调。通过在重写后的Caption上进行训练,LVLM能够学习到更准确的对象属性和行为,从而减少细粒度幻觉的产生。同时,论文还提出了细粒度对象幻觉评估方法(FGHE),用于评估ReCaption的效果。
关键创新:ReCaption的关键创新在于:1) 提出了针对细粒度对象幻觉的缓解方法,弥补了现有方法只关注粗粒度幻觉的不足。2) 利用ChatGPT进行Caption重写,生成高质量的训练数据,从而有效地引导LVLM的学习。3) 提出了细粒度对象幻觉评估方法(FGHE),为评估LVLM的细粒度幻觉提供了新的手段。
关键设计:在Caption重写阶段,使用了特定的prompt来引导ChatGPT生成更准确的描述,例如要求ChatGPT“详细描述图像中的对象及其属性和行为,避免生成图像中不存在的内容”。在微调阶段,使用了常见的微调策略,例如AdamW优化器、学习率衰减等。FGHE评估方法通过设计一系列的探测问题,来判断LVLM是否产生了细粒度对象幻觉。具体的参数设置和网络结构细节在论文中有详细描述。
📊 实验亮点
实验结果表明,ReCaption框架能够有效地减少LVLM的细粒度对象幻觉。通过在多个LVLM模型上进行实验,证明了ReCaption的有效性和泛化能力。此外,FGHE评估方法也为评估LVLM的细粒度幻觉提供了新的手段,可以更全面地评估LVLM的性能。
🎯 应用场景
该研究成果可应用于各种需要精确图像理解和描述的场景,例如自动驾驶、智能监控、医疗影像分析等。通过减少细粒度幻觉,可以提高LVLM在这些场景中的可靠性和安全性,避免因错误的描述而导致潜在的风险。此外,该方法还可以用于改进图像搜索引擎,提高搜索结果的准确性。
📄 摘要(原文)
Large language models (LLMs) have shown remarkable performance in natural language processing (NLP) tasks. To comprehend and execute diverse human instructions over image data, instruction-tuned large vision-language models (LVLMs) have been introduced. However, LVLMs may suffer from different types of object hallucinations. Nevertheless, LVLMs are evaluated for coarse-grained object hallucinations only (i.e., generated objects non-existent in the input image). The fine-grained object attributes and behaviors non-existent in the image may still be generated but not measured by the current evaluation methods. In this paper, we thus focus on reducing fine-grained hallucinations of LVLMs. We propose \textit{ReCaption}, a framework that consists of two components: rewriting captions using ChatGPT and fine-tuning the instruction-tuned LVLMs on the rewritten captions. We also propose a fine-grained probing-based evaluation method named \textit{Fine-Grained Object Hallucination Evaluation} (\textit{FGHE}). Our experiment results demonstrate that ReCaption effectively reduces fine-grained object hallucination for different LVLM options and improves their text generation quality. The code can be found at https://github.com/Anonymousanoy/FOHE.