FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

📄 arXiv: 2603.04857v1 📥 PDF

作者: Yunfan Zhang, Yijie Bei, Jetashree Ravi, Pawel Garbacki

分类: cs.CL, cs.SE

发布日期: 2026-03-05


💡 一句话要点

FireBench:评估企业和API驱动的LLM应用中的指令遵循能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令遵循 大型语言模型 企业应用 API驱动 评估基准

📋 核心要点

  1. 现有指令遵循基准侧重于聊天助手,缺乏对企业级应用中格式、约束和流程的评估。
  2. FireBench通过模拟真实企业和API使用场景,构建了包含2400多个样本的指令遵循评估基准。
  3. 实验评估了11个LLM在FireBench上的表现,揭示了它们在企业场景指令遵循方面的优缺点。

📝 摘要(中文)

指令遵循能力对于部署在企业和API驱动环境中的大型语言模型(LLM)至关重要,在这些环境中,严格遵守输出格式、内容约束和程序要求对于实现可靠的LLM辅助工作流程至关重要。然而,现有的指令遵循基准主要评估自然语言生成约束,这些约束反映了聊天助手的需求,而不是企业用户的需求。为了弥合这一差距,我们推出了FireBench,这是一个基于真实企业和API使用模式的LLM指令遵循基准。FireBench评估了信息提取、客户支持和编码代理等不同应用中的六个核心能力维度,包含超过2400个样本。我们评估了11个LLM,并展示了它们在企业场景中指令遵循行为的关键发现。我们在fire-bench.com上开源了FireBench,以帮助用户评估模型的适用性,支持模型开发者诊断性能,并邀请社区贡献。

🔬 方法详解

问题定义:论文旨在解决现有LLM指令遵循评估基准无法有效评估企业级应用场景的问题。现有基准主要关注聊天助手等自然语言生成任务,忽略了企业应用中对输出格式、内容约束和流程的严格要求,导致模型在实际企业应用中表现不佳。

核心思路:论文的核心思路是构建一个更贴近真实企业和API使用场景的指令遵循评估基准。通过收集和整理真实的企业应用案例,设计包含多种约束和要求的指令,从而更全面地评估LLM在企业环境下的指令遵循能力。

技术框架:FireBench基准包含以下几个主要组成部分:1) 数据集构建:收集真实企业和API使用案例,涵盖信息提取、客户支持和编码代理等多个领域。2) 能力维度定义:定义六个核心能力维度,包括格式遵循、内容约束、程序执行等。3) 评估指标设计:设计针对不同能力维度的评估指标,以量化LLM的指令遵循能力。4) 模型评估:使用FireBench评估多个LLM,并分析其在不同能力维度上的表现。

关键创新:FireBench的关键创新在于其真实性和全面性。它基于真实的企业和API使用案例构建,能够更准确地反映LLM在实际应用中的表现。同时,它涵盖了多个能力维度,能够更全面地评估LLM的指令遵循能力。与现有基准相比,FireBench更具实用价值,能够帮助企业选择合适的LLM,并指导模型开发者改进模型性能。

关键设计:FireBench的数据集包含超过2400个样本,涵盖信息提取、客户支持和编码代理等多个领域。六个核心能力维度包括:1) 格式遵循:要求模型按照指定的格式输出结果。2) 内容约束:要求模型输出的内容符合特定的约束条件。3) 程序执行:要求模型执行特定的程序或流程。4) 逻辑推理:要求模型进行逻辑推理,并根据推理结果生成输出。5) 知识整合:要求模型整合多个来源的知识,并生成输出。6) 上下文理解:要求模型理解上下文信息,并根据上下文生成输出。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

FireBench评估了11个LLM,结果表明,即使是强大的LLM在企业场景下的指令遵循方面仍然存在挑战。例如,某些模型在格式遵循和内容约束方面表现不佳,导致输出结果不符合要求。实验还发现,不同模型在不同能力维度上的表现差异很大,这表明企业需要根据具体的应用场景选择合适的模型。FireBench的开源将促进社区对企业级LLM指令遵循能力的研究和改进。

🎯 应用场景

FireBench可应用于企业级LLM选型、模型性能诊断和模型改进。企业可以使用FireBench评估不同LLM在特定应用场景下的指令遵循能力,从而选择最合适的模型。模型开发者可以使用FireBench诊断模型在不同能力维度上的性能瓶颈,并针对性地改进模型。此外,FireBench还可以用于评估LLM在API驱动的应用中的表现,例如自动化工作流程和智能助手。

📄 摘要(原文)

Instruction following is critical for LLMs deployed in enterprise and API-driven settings, where strict adherence to output formats, content constraints, and procedural requirements is essential for enabling reliable LLM-assisted workflows. However, existing instruction following benchmarks predominantly evaluate natural language generation constraints that reflect the needs of chat assistants rather than enterprise users. To bridge this gap, we introduce FireBench, an LLM instruction following benchmark grounded in real-world enterprise and API usage patterns. FireBench evaluates six core capability dimensions across diverse applications including information extraction, customer support, and coding agents, comprising over 2,400 samples. We evaluate 11 LLMs and present key findings on their instruction following behavior in enterprise scenarios. We open-source FireBench at fire-bench.com to help users assess model suitability, support model developers in diagnosing performance, and invite community contributions.