LIT-RAGBench: Benchmarking Generator Capabilities of Large Language Models in Retrieval-Augmented Generation
作者: Koki Itai, Shunichi Hasegawa, Yuta Yamamoto, Gouki Minegishi, Masaki Otsuki
分类: cs.CL
发布日期: 2026-03-06
备注: Published as a conference paper at LREC 2026
🔗 代码/项目: GITHUB
💡 一句话要点
LIT-RAGBench:用于评估大型语言模型在检索增强生成中生成能力的基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 大型语言模型 基准测试 生成器评估 多步推理
📋 核心要点
- 现有RAG生成器基准测试在覆盖生成器整合长文本、多步推理、表格理解和证据缺失时弃权等能力方面存在不足。
- LIT-RAGBench通过定义逻辑、整合、表格、推理和弃权五个类别,系统评估生成器在RAG中的多种能力,弥合现有评估与实际应用差距。
- 实验结果表明,现有API和开源LLM在LIT-RAGBench上的总体准确率均未超过90%,揭示了模型在RAG任务中的潜在改进空间。
📝 摘要(中文)
检索增强生成(RAG)是一种框架,其中生成器(例如大型语言模型LLM)通过使用检索器从外部集合中检索文档来生成答案。实际上,生成器必须整合来自长上下文的证据,执行多步骤推理,解释表格,并在缺少证据时选择弃权。然而,现有的生成器基准测试覆盖范围有限,没有一个能够同时评估统一条件下的多种能力。为了弥合现有评估与实际使用之间的差距,我们引入了LIT-RAGBench(逻辑、整合、表格、推理和弃权RAG生成器基准测试),它定义了五个类别:整合、推理、逻辑、表格和弃权,每个类别进一步划分为实际评估方面。LIT-RAGBench系统地覆盖了跨类别组合多个方面的模式。通过使用虚构的实体和场景,LIT-RAGBench评估基于提供的外部文档的答案。该数据集包含114个人工构建的日语问题和一个由机器翻译生成并经过人工整理的英语版本。我们使用LLM-as-a-Judge进行评分,并报告类别和总体准确率。在基于API和开放权重模型中,没有模型的总体准确率超过90%。通过使每个类别中的优势和劣势可衡量,LIT-RAGBench可以作为实际RAG部署中模型选择和构建RAG专用模型的宝贵指标。我们发布了LIT-RAGBench,包括数据集和评估代码,网址为https://github.com/Koki-Itai/LIT-RAGBench。
🔬 方法详解
问题定义:论文旨在解决现有RAG(Retrieval-Augmented Generation)系统中,对生成器(Generator)能力评估不足的问题。现有的基准测试无法全面评估生成器在整合长文本信息、进行多步推理、理解表格数据以及在缺乏证据时选择放弃的能力,这限制了RAG系统在实际应用中的性能提升和模型选择。
核心思路:论文的核心思路是构建一个更全面、更细粒度的RAG生成器基准测试,即LIT-RAGBench。该基准测试通过定义五个关键类别(逻辑、整合、表格、推理和弃权),并针对每个类别设计具体的评估方面,从而系统地评估生成器在RAG任务中的各种能力。通过使用虚构的实体和场景,确保评估的答案是基于提供的外部文档,避免模型利用外部知识作弊。
技术框架:LIT-RAGBench的技术框架主要包括以下几个部分:1) 数据集构建:人工构建日语问题,并机器翻译成英语,再进行人工校对。数据集包含114个问题,覆盖五个类别。2) 评估指标:采用LLM-as-a-Judge的方式进行评分,即使用大型语言模型作为裁判,评估生成器生成的答案的质量。3) 基准测试流程:将问题输入到RAG系统,RAG系统首先检索相关文档,然后生成答案。最后,使用LLM-as-a-Judge评估答案的准确性。
关键创新:LIT-RAGBench的关键创新在于其全面性和细粒度。它不仅考虑了生成器在RAG任务中的多种能力,而且针对每种能力设计了具体的评估方面。此外,LIT-RAGBench还使用了虚构的实体和场景,确保评估的答案是基于提供的外部文档。与现有方法相比,LIT-RAGBench能够更准确地评估生成器在RAG任务中的性能,并为模型选择和RAG系统优化提供更有价值的指导。
关键设计:LIT-RAGBench的关键设计包括:1) 类别划分:将生成器能力划分为逻辑、整合、表格、推理和弃权五个类别,每个类别包含多个评估方面。2) 问题设计:设计具有挑战性的问题,需要生成器整合长文本信息、进行多步推理、理解表格数据以及在缺乏证据时选择放弃。3) 评估方法:使用LLM-as-a-Judge进行评分,并报告类别和总体准确率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是强大的API-based和开源LLM,在LIT-RAGBench上的总体准确率也未超过90%。这表明现有模型在RAG任务中仍有很大的改进空间。LIT-RAGBench能够有效区分不同模型在不同类别上的性能差异,为模型选择和RAG系统优化提供了有价值的参考。
🎯 应用场景
LIT-RAGBench可用于评估和比较不同大型语言模型在RAG系统中的生成能力,帮助研究人员和开发者选择更适合特定任务的模型。此外,该基准测试还可以用于指导RAG系统的优化,例如改进检索策略、调整生成器参数等。未来,LIT-RAGBench可以扩展到更多语言和领域,并与其他基准测试相结合,形成更全面的RAG系统评估体系。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) is a framework in which a Generator, such as a Large Language Model (LLM), produces answers by retrieving documents from an external collection using a Retriever. In practice, Generators must integrate evidence from long contexts, perform multi-step reasoning, interpret tables, and abstain when evidence is missing. However, existing benchmarks for Generators provide limited coverage, with none enabling simultaneous evaluation of multiple capabilities under unified conditions. To bridge the gap between existing evaluations and practical use, we introduce LIT-RAGBench (the Logic, Integration, Table, Reasoning, and Abstention RAG Generator Benchmark), which defines five categories: Integration, Reasoning, Logic, Table, and Abstention, each further divided into practical evaluation aspects. LIT-RAGBench systematically covers patterns combining multiple aspects across categories. By using fictional entities and scenarios, LIT-RAGBench evaluates answers grounded in the provided external documents. The dataset consists of 114 human-constructed Japanese questions and an English version generated by machine translation with human curation. We use LLM-as-a-Judge for scoring and report category-wise and overall accuracy. Across API-based and open-weight models, no model exceeds 90% overall accuracy. By making strengths and weaknesses measurable within each category, LIT-RAGBench serves as a valuable metric for model selection in practical RAG deployments and for building RAG-specialized models. We release LIT-RAGBench, including the dataset and evaluation code, at https://github.com/Koki-Itai/LIT-RAGBench.