Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites

作者: Lei Wang, Jiabang He, Shenshen Li, Ning Liu, Ee-Peng Lim

分类: cs.CV, cs.CL

发布日期: 2023-12-04

备注: MMM 2024

🔗 代码/项目: GITHUB

💡 一句话要点

提出ReCaption框架，通过重写Caption微调LVLM，缓解细粒度幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 细粒度幻觉 Caption重写 ChatGPT 指令调优

📋 核心要点

现有LVLM评估主要关注粗粒度幻觉，忽略了细粒度对象属性和行为的幻觉，导致评估不全面。
ReCaption框架通过ChatGPT重写Caption，并在此基础上微调LVLM，旨在减少细粒度对象幻觉。
实验结果表明，ReCaption能有效减少细粒度对象幻觉，并提升LVLM的文本生成质量。

📝 摘要（中文）

大型语言模型（LLMs）在自然语言处理（NLP）任务中表现出了卓越的性能。为了理解和执行图像数据上的各种人类指令，研究者们引入了指令调优的大型视觉-语言模型（LVLMs）。然而，LVLMs可能会遭受不同类型的对象幻觉。目前，LVLMs仅针对粗粒度的对象幻觉进行评估（即，生成输入图像中不存在的对象）。图像中不存在的细粒度对象属性和行为可能仍然被生成，但当前的评估方法无法衡量。因此，本文侧重于减少LVLMs的细粒度幻觉。我们提出了一个名为 extit{ReCaption}的框架，该框架由两个组件组成：使用ChatGPT重写Caption，以及在重写的Caption上微调指令调优的LVLMs。我们还提出了一种基于细粒度探测的评估方法，名为 extit{细粒度对象幻觉评估}（ extit{FGHE}）。我们的实验结果表明，ReCaption有效地减少了不同LVLM选项的细粒度对象幻觉，并提高了它们的文本生成质量。代码可在https://github.com/Anonymousanoy/FOHE找到。

🔬 方法详解

问题定义：现有的大型视觉语言模型（LVLMs）在生成文本描述时，容易产生幻觉，即生成图像中不存在的对象或属性。现有的评估方法主要关注粗粒度的对象幻觉（例如，生成图像中完全不存在的对象），而忽略了细粒度的对象幻觉，例如生成对象错误的属性或行为（例如，图像中的猫是静止的，但模型描述为跳跃）。这种细粒度的幻觉难以被现有方法检测和缓解，影响了LVLM的可靠性和实用性。

核心思路：ReCaption的核心思路是利用ChatGPT的强大语言能力，对原始的图像Caption进行重写，生成更准确、更详细的描述，从而为LVLM提供更可靠的训练数据。通过在这些重写的Caption上进行微调，LVLM能够学习到更准确的对象属性和行为，从而减少细粒度幻觉的产生。这种方法的核心在于利用高质量的Caption来引导LVLM的学习，避免其产生错误的联想。

技术框架：ReCaption框架主要包含两个阶段：1) Caption重写阶段：使用ChatGPT对原始的图像Caption进行重写，生成更准确、更详细的描述。具体来说，将原始Caption输入ChatGPT，并提示其生成更符合图像内容的描述，尽可能避免出现幻觉。2) 微调阶段：使用重写后的Caption对指令调优的LVLM进行微调。通过在重写后的Caption上进行训练，LVLM能够学习到更准确的对象属性和行为，从而减少细粒度幻觉的产生。同时，论文还提出了细粒度对象幻觉评估方法（FGHE），用于评估ReCaption的效果。

关键创新：ReCaption的关键创新在于：1) 提出了针对细粒度对象幻觉的缓解方法，弥补了现有方法只关注粗粒度幻觉的不足。2) 利用ChatGPT进行Caption重写，生成高质量的训练数据，从而有效地引导LVLM的学习。3) 提出了细粒度对象幻觉评估方法（FGHE），为评估LVLM的细粒度幻觉提供了新的手段。

关键设计：在Caption重写阶段，使用了特定的prompt来引导ChatGPT生成更准确的描述，例如要求ChatGPT“详细描述图像中的对象及其属性和行为，避免生成图像中不存在的内容”。在微调阶段，使用了常见的微调策略，例如AdamW优化器、学习率衰减等。FGHE评估方法通过设计一系列的探测问题，来判断LVLM是否产生了细粒度对象幻觉。具体的参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果表明，ReCaption框架能够有效地减少LVLM的细粒度对象幻觉。通过在多个LVLM模型上进行实验，证明了ReCaption的有效性和泛化能力。此外，FGHE评估方法也为评估LVLM的细粒度幻觉提供了新的手段，可以更全面地评估LVLM的性能。

🎯 应用场景

该研究成果可应用于各种需要精确图像理解和描述的场景，例如自动驾驶、智能监控、医疗影像分析等。通过减少细粒度幻觉，可以提高LVLM在这些场景中的可靠性和安全性，避免因错误的描述而导致潜在的风险。此外，该方法还可以用于改进图像搜索引擎，提高搜索结果的准确性。

📄 摘要（原文）

Large language models (LLMs) have shown remarkable performance in natural language processing (NLP) tasks. To comprehend and execute diverse human instructions over image data, instruction-tuned large vision-language models (LVLMs) have been introduced. However, LVLMs may suffer from different types of object hallucinations. Nevertheless, LVLMs are evaluated for coarse-grained object hallucinations only (i.e., generated objects non-existent in the input image). The fine-grained object attributes and behaviors non-existent in the image may still be generated but not measured by the current evaluation methods. In this paper, we thus focus on reducing fine-grained hallucinations of LVLMs. We propose \textit{ReCaption}, a framework that consists of two components: rewriting captions using ChatGPT and fine-tuning the instruction-tuned LVLMs on the rewritten captions. We also propose a fine-grained probing-based evaluation method named \textit{Fine-Grained Object Hallucination Evaluation} (\textit{FGHE}). Our experiment results demonstrate that ReCaption effectively reduces fine-grained object hallucination for different LVLM options and improves their text generation quality. The code can be found at https://github.com/Anonymousanoy/FOHE.

Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册