Fine-tuning Small Language Models as Efficient Enterprise Search Relevance Labelers
作者: Yue Kang, Zhuoyi Huang, Benji Schussheim, Diana Licon, Dina Atia, Shixing Cao, Jacob Danovitch, Kunho Kim, Billy Norcilien, Jonah Karpman, Mahmound Sayed, Mike Taylor, Tao Sun, Pavel Metrikov, Vipul Agarwal, Chris Quirk, Ye-Yi Wang, Nick Craswell, Irene Shaffer, Tianwei Chen, Sulaiman Vesal, Soundar Srinivasan
分类: cs.IR, cs.AI, cs.CL
发布日期: 2026-01-06
💡 一句话要点
提出一种高效微调小语言模型的企业搜索相关性标注方法,媲美甚至超越大模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 企业搜索 相关性标注 小语言模型 合成数据 知识蒸馏 大语言模型 BM25
📋 核心要点
- 企业搜索缺乏大规模高质量标注数据,限制了相关性模型的训练和迭代。
- 利用LLM合成数据,包括生成查询、检索负样本和标注相关性,构建训练集。
- 将合成数据蒸馏到SLM中,在保证标注质量的同时,显著提升标注吞吐量和成本效益。
📝 摘要(中文)
在企业搜索中,构建大规模高质量数据集仍然是一个核心挑战,主要困难在于获取标注数据。为了解决这个问题,我们提出了一种高效的方法,用于微调小语言模型(SLM),以实现准确的相关性标注。这种方法能够实现高吞吐量、特定领域的标注,其质量可与最先进的大语言模型(LLM)相媲美,甚至更好。为了克服企业领域中缺乏高质量和可访问数据集的问题,我们的方法利用了合成数据生成。具体来说,我们使用LLM从种子文档中合成真实的的企业查询,应用BM25来检索困难负样本,并使用教师LLM来分配相关性分数。然后将生成的数据集提炼到SLM中,从而生成一个紧凑的相关性标注器。我们在一个高质量的基准上评估了我们的方法,该基准包含923个由训练有素的人工标注员标注的企业查询-文档对,结果表明,经过提炼的SLM在与人类判断的一致性方面与教师LLM相当甚至更好。此外,我们微调后的标注器显著提高了吞吐量,实现了17倍的提升,同时成本效益提高了19倍。这种方法为企业级检索应用实现了可扩展且经济高效的相关性标注,支持在实际环境中进行快速的离线评估和迭代。
🔬 方法详解
问题定义:论文旨在解决企业搜索中构建大规模高质量相关性标注数据集的难题。现有方法依赖人工标注,成本高、效率低,难以满足企业级应用的需求。此外,企业领域缺乏公开的高质量数据集,限制了有监督学习方法的应用。
核心思路:论文的核心思路是利用大语言模型(LLM)生成合成数据,然后将这些数据蒸馏到小语言模型(SLM)中。通过这种方式,既可以利用LLM的强大生成能力,又可以获得高效的标注器。
技术框架:整体框架包含以下几个主要阶段:1) 数据合成:使用LLM从种子文档中生成企业查询,并使用BM25检索困难负样本。然后,使用教师LLM对查询-文档对进行相关性标注。2) 模型训练:使用合成数据微调SLM,使其能够准确预测查询-文档对的相关性。3) 模型评估:在人工标注的高质量基准数据集上评估SLM的性能。
关键创新:最重要的创新点在于利用LLM进行合成数据生成,克服了企业领域缺乏高质量标注数据的难题。通过合成数据,可以低成本、高效地构建大规模训练数据集,从而训练出高性能的SLM标注器。与直接使用LLM进行标注相比,SLM具有更高的吞吐量和更低的成本。
关键设计:在数据合成阶段,使用BM25检索困难负样本,增加了训练数据的难度,提高了模型的泛化能力。使用教师LLM进行相关性标注,保证了标注质量。在模型训练阶段,选择合适的SLM架构和微调策略,以获得最佳性能。具体参数设置和损失函数等细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过提炼的SLM在与人类判断的一致性方面与教师LLM相当甚至更好。此外,该方法显著提高了标注吞吐量,实现了17倍的提升,同时成本效益提高了19倍。这些结果表明,该方法在保证标注质量的同时,显著降低了标注成本,提高了标注效率。
🎯 应用场景
该研究成果可广泛应用于企业搜索、智能客服、知识图谱构建等领域。通过低成本、高效地构建高质量相关性标注数据集,可以显著提升搜索结果的准确性和用户体验。该方法还可用于快速迭代搜索算法,支持企业进行持续的优化和改进。未来,该方法可以扩展到其他领域,例如医疗、金融等,为这些领域构建高质量的标注数据集。
📄 摘要(原文)
In enterprise search, building high-quality datasets at scale remains a central challenge due to the difficulty of acquiring labeled data. To resolve this challenge, we propose an efficient approach to fine-tune small language models (SLMs) for accurate relevance labeling, enabling high-throughput, domain-specific labeling comparable or even better in quality to that of state-of-the-art large language models (LLMs). To overcome the lack of high-quality and accessible datasets in the enterprise domain, our method leverages on synthetic data generation. Specifically, we employ an LLM to synthesize realistic enterprise queries from a seed document, apply BM25 to retrieve hard negatives, and use a teacher LLM to assign relevance scores. The resulting dataset is then distilled into an SLM, producing a compact relevance labeler. We evaluate our approach on a high-quality benchmark consisting of 923 enterprise query-document pairs annotated by trained human annotators, and show that the distilled SLM achieves agreement with human judgments on par with or better than the teacher LLM. Furthermore, our fine-tuned labeler substantially improves throughput, achieving 17 times increase while also being 19 times more cost-effective. This approach enables scalable and cost-effective relevance labeling for enterprise-scale retrieval applications, supporting rapid offline evaluation and iteration in real-world settings.