Small Encoders Can Rival Large Decoders in Detecting Groundedness

📄 arXiv: 2506.21288v1 📥 PDF

作者: Istabrak Abbes, Gabriele Prato, Quentin Fournier, Fernando Rodriguez, Alaa Boukhary, Adam Elwood, Sarath Chandar

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2025-06-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出轻量级编码器以解决大型解码器在基础性检测中的不足

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基础性检测 轻量级编码器 大型语言模型 自然语言处理 模型微调 推理效率 信息检索

📋 核心要点

  1. 现有大型语言模型在信息不足时容易产生无基础的推测,影响回答的准确性和可信度。
  2. 本研究提出了一种轻量级编码器模型,通过微调特定任务数据集来实现基础性检测,避免了昂贵的答案生成过程。
  3. 实验结果显示,轻量级编码器在基础性检测的准确率上与大型语言模型相当,同时推理延迟降低了几个数量级。

📝 摘要(中文)

本研究探讨了如何通过外部上下文增强大型语言模型(LLMs)的性能,尤其是在自然语言处理任务中的应用。尽管LLMs在提供信息不足的情况下常常依赖于无基础的推测,导致生成的回答缺乏事实一致性和可信度,基础性检测显得尤为重要。研究表明,经过微调的轻量级、任务特定的编码器模型(如RoBERTa和NomicBERT)在基础性检测中能够达到与最先进的LLMs(如Llama3 8B和GPT4o)相当的准确率,同时显著降低推理延迟。相关代码已在GitHub上发布。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在缺乏信息的上下文中生成无基础回答的问题。现有方法在处理基础性检测时效率低下,导致资源浪费和推理时间过长。

核心思路:论文提出使用轻量级、任务特定的编码器模型进行基础性检测,以在生成答案之前判断查询是否有基础,从而提高效率和准确性。

技术框架:整体架构包括数据预处理、模型微调和基础性检测三个主要模块。首先,收集并整理特定任务的数据集,然后对编码器模型进行微调,最后利用微调后的模型进行基础性检测。

关键创新:本研究的创新点在于通过轻量级编码器实现与大型语言模型相当的基础性检测准确率,同时大幅降低推理延迟,这在现有文献中尚属首次。

关键设计:在模型设计上,采用RoBERTa和NomicBERT等编码器,并通过特定任务的数据集进行微调。损失函数的选择和训练参数的设置经过精心设计,以确保模型在基础性检测任务中的最佳表现。

📊 实验亮点

实验结果表明,经过微调的轻量级编码器模型在基础性检测任务中达到了与Llama3 8B和GPT4o相当的准确率,推理延迟降低了几个数量级,显示出其在实际应用中的巨大潜力和优势。

🎯 应用场景

该研究的成果可广泛应用于自然语言处理领域,尤其是在需要高效且准确的基础性检测的场景中,如智能问答系统、信息检索和对话系统等。通过提高基础性检测的效率,可以显著提升用户体验和系统的整体性能,未来可能推动更多基于上下文的智能应用的发展。

📄 摘要(原文)

Augmenting large language models (LLMs) with external context significantly improves their performance in natural language processing (NLP) tasks. However, LLMs struggle to answer queries reliably when the provided context lacks information, often resorting to ungrounded speculation or internal knowledge. Groundedness - generating responses strictly supported by the context - is essential for ensuring factual consistency and trustworthiness. This study focuses on detecting whether a given query is grounded in a document provided in context before the costly answer generation by LLMs. Such a detection mechanism can significantly reduce both inference time and resource consumption. We show that lightweight, task specific encoder models such as RoBERTa and NomicBERT, fine-tuned on curated datasets, can achieve accuracy comparable to state-of-the-art LLMs, such as Llama3 8B and GPT4o, in groundedness detection while reducing inference latency by orders of magnitude. The code is available at : https://github.com/chandarlab/Hallucinate-less