Jackal: A Real-World Execution-Based Benchmark Evaluating Large Language Models on Text-to-JQL Tasks
作者: Kevin Frank, Anmol Gulati, Elias Lumer, Sindy Campagna, Vamse Kumar Subbiah
分类: cs.CL
发布日期: 2025-09-28
备注: 17 pages
💡 一句话要点
提出Jackal:一个基于真实执行的文本到JQL的大语言模型评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到JQL 大语言模型 执行基准 Jira查询语言 自然语言处理
📋 核心要点
- 现有方法缺乏在真实Jira环境下,对自然语言到JQL转换的有效评估基准,难以反映实际应用场景。
- Jackal通过构建包含10万个真实JQL查询对的大规模数据集,并采用基于执行的评估方法,弥补了这一空白。
- 实验表明,即使是Gemini 2.5 Pro在Jackal-5K子集上的平均执行准确率仅为60.3%,凸显了现有LLM的不足。
📝 摘要(中文)
企业团队依赖Jira查询语言(JQL)从Jira中检索和过滤问题。然而,据我们所知,目前还没有开放的、真实的、基于执行的基准来评估自然语言查询到JQL的映射。我们推出了Jackal,这是一个新颖的大规模文本到JQL基准,包含10万个自然语言(NL)请求,并配有经过验证的JQL查询以及在包含超过20万个问题的实时Jira实例上执行的结果。为了反映真实世界的用法,每个JQL查询都与四种类型的用户请求相关联:(i)长自然语言,(ii)短自然语言,(iii)语义相似,以及(iv)语义精确。我们发布Jackal,一个包含10万个文本到JQL对的语料库,以及一个基于执行的评分工具包,以及一个用于重现性的已评估Jira实例的静态快照。我们报告了23个大型语言模型(LLM)在文本到JQL上的结果,这些模型涵盖了参数大小、开源和闭源模型,以及执行准确率、精确匹配和规范精确匹配。在本文中,我们报告了Jackal-5K的结果,它是Jackal的一个5000对的子集。在Jackal-5K上,最佳整体模型(Gemini 2.5 Pro)在四种用户请求类型上平均仅达到60.3%的执行准确率。性能在用户请求类型之间差异很大:(i)长自然语言(86.0%),(ii)短自然语言(35.7%),(iii)语义相似(22.7%),以及(iv)语义精确(99.3%)。通过基准测试LLM生成正确和可执行的JQL查询的能力,Jackal揭示了当前最先进的LLM的局限性,并为Jira企业数据未来的研究提出了一个新的、基于执行的挑战。
🔬 方法详解
问题定义:论文旨在解决将自然语言查询转换为JQL查询的问题,并提供一个可靠的评估基准。现有方法缺乏在真实Jira实例上的执行验证,无法准确反映模型在实际应用中的性能。此外,缺乏区分不同类型用户请求(长/短自然语言、语义相似/精确)的细粒度评估。
核心思路:核心思路是构建一个大规模、真实世界的文本到JQL数据集,并采用基于Jira实例执行结果的评估方法。通过这种方式,可以更准确地衡量模型生成JQL查询的质量,并发现模型在不同类型用户请求下的性能差异。数据集的设计考虑了真实用户的使用场景,包含多种类型的自然语言表达。
技术框架:Jackal基准测试包含以下主要组成部分:1) 包含10万个文本到JQL对的数据集,每个JQL查询对应四种类型的用户请求;2) 基于真实Jira实例的执行环境,用于验证JQL查询的正确性;3) 评估指标,包括执行准确率、精确匹配和规范精确匹配;4) 用于重现性的Jira实例静态快照。研究者可以使用该基准测试评估各种LLM在文本到JQL任务上的性能。
关键创新:最重要的技术创新点在于其基于真实执行的评估方法。与传统的基于文本匹配的评估方法不同,Jackal通过在真实的Jira实例上执行生成的JQL查询,来验证其是否能够返回正确的结果。这种方法能够更准确地反映模型在实际应用中的性能,并发现模型在处理复杂查询和不同类型用户请求时的不足。
关键设计:数据集包含四种类型的用户请求,以模拟真实世界的使用场景。长自然语言请求提供更详细的上下文,而短自然语言请求则更简洁。语义相似请求测试模型理解语义变体的能力,而语义精确请求则要求模型准确理解用户的意图。评估指标包括执行准确率(JQL查询返回正确结果的比例)、精确匹配(生成的JQL查询与标准答案完全一致的比例)和规范精确匹配(生成的JQL查询与标准答案在逻辑上等价的比例)。
📊 实验亮点
实验结果表明,即使是目前最先进的LLM(Gemini 2.5 Pro)在Jackal-5K上的平均执行准确率仅为60.3%。在不同类型的用户请求中,性能差异显著:长自然语言请求的准确率较高(86.0%),而短自然语言请求和语义相似请求的准确率较低(分别为35.7%和22.7%)。这表明现有LLM在理解复杂查询和处理语义变体方面仍有很大的提升空间。
🎯 应用场景
该研究成果可应用于企业级智能助手、自动化缺陷跟踪系统等领域。通过提升LLM在文本到JQL转换任务上的性能,可以帮助用户更高效地从Jira等系统中检索信息,提高工作效率。未来,该基准测试可以扩展到其他企业级数据查询语言,促进相关技术的发展。
📄 摘要(原文)
Enterprise teams rely on the Jira Query Language (JQL) to retrieve and filter issues from Jira. Yet, to our knowledge, there is no open, real-world, execution-based benchmark for mapping natural language queries to JQL. We introduce Jackal, a novel, large-scale text-to-JQL benchmark comprising 100,000 natural language (NL) requests paired with validated JQL queries and execution-based results on a live Jira instance with over 200,000 issues. To reflect real-world usage, each JQL query is associated with four types of user requests: (i) Long NL, (ii) Short NL, (iii) Semantically Similar, and (iv) Semantically Exact. We release Jackal, a corpus of 100,000 text-to-JQL pairs, together with an execution-based scoring toolkit, and a static snapshot of the evaluated Jira instance for reproducibility. We report text-to-JQL results on 23 Large Language Models (LLMs) spanning parameter sizes, open and closed source models, across execution accuracy, exact match, and canonical exact match. In this paper, we report results on Jackal-5K, a 5,000-pair subset of Jackal. On Jackal-5K, the best overall model (Gemini 2.5 Pro) achieves only 60.3% execution accuracy averaged equally across four user request types. Performance varies significantly across user request types: (i) Long NL (86.0%), (ii) Short NL (35.7%), (iii) Semantically Similar (22.7%), and (iv) Semantically Exact (99.3%). By benchmarking LLMs on their ability to produce correct and executable JQL queries, Jackal exposes the limitations of current state-of-the-art LLMs and sets a new, execution-based challenge for future research in Jira enterprise data.