Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

📄 arXiv: 2603.04799v1 📥 PDF

作者: Nan Hou, Kangfei Zhao, Jiadong Xie, Jeffrey Xu Yu

分类: cs.DB, cs.AI, cs.CL

发布日期: 2026-03-05


💡 一句话要点

提出CSV框架,通过聚类采样投票实现亚线性LLM调用,高效语义过滤。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义过滤 大型语言模型 聚类采样 投票策略 亚线性复杂度

📋 核心要点

  1. 现有语义过滤方法需线性扫描数据表,对每个元组调用LLM,导致高延迟和高token成本。
  2. CSV框架通过聚类、采样和投票,将LLM调用次数降至亚线性复杂度,并提供误差保证。
  3. 实验表明,CSV在保持准确率和F1分数的同时,显著减少了LLM调用次数,最高可达355倍。

📝 摘要(中文)

大型语言模型(LLM)越来越多地用于处理大规模语料库上的语义查询。源于关系代数的一组语义算子被提出,为表达此类查询提供统一接口,其中语义过滤算子是基石。给定一个包含自然语言谓词e的表T,语义过滤的执行过程是对关系中的每个元组,构建一个将谓词e与其内容相结合的输入提示,查询LLM,并获得二元决策。然而,这种逐元组的评估需要对表进行完整的线性扫描,导致极高的延迟和token成本。尽管最近的工作试图优化语义过滤,但仍然没有突破线性LLM调用的障碍。为了解决这个问题,我们提出了聚类-采样-投票(CSV)框架,该框架将LLM调用次数降低到亚线性复杂度,同时提供误差保证。CSV将元组嵌入到语义簇中,采样一小部分进行LLM评估,并通过两种提出的投票策略推断簇级别的标签:UniVote(均匀聚合标签)和SimVote(通过语义相似性加权投票)。此外,CSV在模糊簇上触发重新聚类,以确保跨不同数据集的鲁棒性。在真实数据集上进行的结果表明,与最先进的方法相比,CSV将LLM调用次数减少了1.28-355倍,同时在准确率和F1分数方面保持了相当的有效性。

🔬 方法详解

问题定义:论文旨在解决使用大型语言模型(LLM)进行语义过滤时,因需要对数据表中的每个元组进行线性扫描和LLM调用而导致的高延迟和高token成本问题。现有方法虽然尝试优化,但未能突破线性LLM调用的瓶颈。

核心思路:论文的核心思路是通过聚类将语义相似的元组分组,然后仅对每个簇中的少量样本进行LLM评估,最后通过投票机制推断整个簇的标签。这样可以将LLM调用次数从线性降低到亚线性,从而显著提高效率。

技术框架:CSV框架主要包含以下几个阶段: 1. 元组嵌入:将数据表中的每个元组嵌入到语义空间中。 2. 聚类:使用聚类算法(如K-means)将嵌入的元组划分为若干个语义簇。 3. 采样:从每个簇中随机抽取一小部分元组作为代表样本。 4. LLM评估:对抽取的样本进行LLM调用,获取其标签。 5. 投票:根据样本的标签,使用投票策略(UniVote或SimVote)推断整个簇的标签。 6. 重聚类:对于标签不确定的簇,进行重新聚类,并重复采样、LLM评估和投票过程。

关键创新:CSV框架的关键创新在于: 1. 亚线性LLM调用:通过聚类和采样,将LLM调用次数降低到亚线性复杂度。 2. 两种投票策略:提出了UniVote(均匀投票)和SimVote(相似性加权投票)两种投票策略,以适应不同的数据集和场景。 3. 自适应重聚类:在标签不确定的簇上进行重聚类,提高了框架的鲁棒性。

关键设计: 1. 嵌入方式:可以使用预训练的句子嵌入模型(如Sentence-BERT)将元组嵌入到语义空间中。 2. 聚类算法:可以使用K-means等聚类算法,簇的数量可以根据数据集的大小和语义复杂度进行调整。 3. 采样率:采样率决定了每个簇中需要进行LLM评估的样本数量,需要在效率和准确率之间进行权衡。 4. 投票策略:UniVote简单易用,适用于簇内语义一致性较高的情况;SimVote考虑了样本之间的语义相似性,适用于簇内语义差异较大的情况。 5. 重聚类触发条件:可以根据簇内样本标签的一致性程度来判断是否需要进行重聚类。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CSV框架在多个真实数据集上显著优于现有方法,在保持相当的准确率和F1分数的前提下,将LLM调用次数降低了1.28到355倍。这表明CSV框架能够有效地降低语义过滤的计算成本,提高处理效率。

🎯 应用场景

该研究成果可广泛应用于需要对大规模数据进行语义过滤的场景,例如信息检索、数据清洗、知识图谱构建等。通过降低LLM调用次数,可以显著降低计算成本和延迟,使得LLM能够更高效地处理海量数据,具有重要的实际应用价值和商业潜力。

📄 摘要(原文)

Large language models (LLMs) are increasingly used for semantic query processing over large corpora. A set of semantic operators derived from relational algebra has been proposed to provide a unified interface for expressing such queries, among which the semantic filter operator serves as a cornerstone. Given a table T with a natural language predicate e, for each tuple in the relation, the execution of a semantic filter proceeds by constructing an input prompt that combines the predicate e with its content, querying the LLM, and obtaining the binary decision. However, this tuple-by-tuple evaluation necessitates a complete linear scan of the table, incurring prohibitive latency and token costs. Although recent work has attempted to optimize semantic filtering, it still does not break the linear LLM invocation barriers. To address this, we propose Clustering-Sampling-Voting (CSV), a new framework that reduces LLM invocations to sublinear complexity while providing error guarantees. CSV embeds tuples into semantic clusters, samples a small subset for LLM evaluation, and infers cluster-level labels via two proposed voting strategies: UniVote, which aggregates labels uniformly, and SimVote, which weights votes by semantic similarity. Moreover, CSV triggers re-clustering on ambiguous clusters to ensure robustness across diverse datasets. The results conducted on real-world datasets demonstrate that CSV reduces the number of LLM calls by 1.28-355x compared to the state-of-the-art approaches, while maintaining comparable effectiveness in terms of Accuracy and F1 score.