Streaming Model Cascades for Semantic SQL
作者: Paweł Liskowski, Kyle Schmaus
分类: cs.DB, cs.AI
发布日期: 2026-04-01
💡 一句话要点
提出两种流式模型级联算法,用于在语义SQL中降低大语言模型的推理成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型级联 语义SQL 流式处理 分布式系统 大语言模型 自适应算法 成本优化
📋 核心要点
- 现有语义SQL引擎逐行调用大语言模型成本高昂,且现有模型级联框架依赖全局数据访问,不适用于分布式环境。
- 论文提出两种自适应模型级联算法,SUPG-IT和GAMCAL,用于流式、按分区执行,无需worker间通信。
- 实验表明,两种算法在多个数据集上均达到F1 > 0.95,GAMCAL在成本敏感场景表现更优,SUPG-IT质量上限更高。
📝 摘要(中文)
现代数据仓库通过语义算子扩展了SQL,这些算子在每个符合条件的行上调用大型语言模型,但逐行推理的成本在高负载下是令人望而却步的。模型级联通过将大多数行路由到快速代理模型,并将不确定的情况委派给昂贵的oracle模型来降低这种成本。然而,现有的框架需要全局数据集访问并优化单一质量指标,限制了它们在分布式系统中的适用性,在分布式系统中,数据被分区到独立的worker上。我们提出了两种自适应级联算法,专为流式、按分区执行而设计,其中每个worker独立处理其分区,无需worker间的通信。SUPG-IT将SUPG统计框架扩展到流式执行,具有迭代阈值细化和联合精确率-召回率保证。GAMCAL用学习的校准模型取代了用户指定的质量目标:广义加性模型将代理分数映射到具有不确定性量化的校准概率,从而可以通过单个参数直接优化成本-质量的权衡。在生产语义SQL引擎中的六个数据集上的实验表明,两种算法在每个数据集上都实现了F1 > 0.95。GAMCAL在成本敏感的操作点上实现了更高的每次oracle调用的F1,而SUPG-IT达到了更高的质量上限,并具有正式的精确率和召回率保证。
🔬 方法详解
问题定义:论文旨在解决在分布式语义SQL引擎中,由于对每行数据调用昂贵的大语言模型进行推理而导致的高计算成本问题。现有模型级联方法依赖全局数据访问和单一质量指标优化,不适用于数据分区的分布式环境,导致效率低下和难以适应不同worker的资源限制。
核心思路:论文的核心思路是设计能够在数据流上进行本地化、自适应模型级联的算法。通过使用快速代理模型过滤掉大部分数据,只将不确定的数据交给昂贵的oracle模型处理,从而降低整体计算成本。关键在于设计算法,使其能够在没有全局信息的情况下,根据本地数据流的特性动态调整级联策略。
技术框架:整体框架包含以下几个主要阶段:1) 数据流输入:每个worker接收其数据分区的数据流。2) 代理模型推理:使用快速代理模型对每行数据进行初步预测,并输出置信度分数。3) 级联决策:根据代理模型的置信度分数,决定是将数据直接输出,还是将其传递给oracle模型。4) Oracle模型推理(可选):对于需要oracle模型处理的数据,进行更精确的预测。5) 结果输出:输出最终的预测结果。论文提出了两种不同的级联决策算法:SUPG-IT和GAMCAL。
关键创新:论文的关键创新在于提出了两种适用于流式、按分区执行的自适应模型级联算法。SUPG-IT通过迭代阈值细化,在流式环境中实现了联合精确率-召回率保证。GAMCAL则使用学习的校准模型,将代理分数映射到校准概率,从而可以直接优化成本-质量的权衡。这两种算法都能够在没有全局信息的情况下,根据本地数据流的特性动态调整级联策略。
关键设计:SUPG-IT的关键设计在于其迭代阈值细化过程,通过不断调整阈值,以满足预设的精确率和召回率目标。GAMCAL的关键设计在于使用广义加性模型(GAM)来学习代理模型置信度分数到校准概率的映射,并使用不确定性量化来指导成本-质量的权衡。GAMCAL使用可调节的参数来控制oracle模型的调用频率,从而实现成本敏感的操作。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SUPG-IT和GAMCAL两种算法在六个数据集上均实现了F1 > 0.95。GAMCAL在成本敏感的操作点上,每次oracle调用的F1值更高,表明其在降低成本方面更有效。SUPG-IT则达到了更高的质量上限,并提供了正式的精确率和召回率保证,适用于对质量要求更高的场景。
🎯 应用场景
该研究成果可应用于各种需要使用大语言模型进行语义分析的分布式数据处理场景,例如:金融风控、智能客服、内容审核等。通过降低大语言模型的推理成本,可以提高系统的吞吐量和响应速度,并降低运营成本。未来,该技术可以进一步扩展到其他类型的机器学习模型和更复杂的分布式系统架构。
📄 摘要(原文)
Modern data warehouses extend SQL with semantic operators that invoke large language models on each qualifying row, but the per-row inference cost is prohibitive at scale. Model cascades reduce this cost by routing most rows through a fast proxy model and delegating uncertain cases to an expensive oracle. Existing frameworks, however, require global dataset access and optimize a single quality metric, limiting their applicability in distributed systems where data is partitioned across independent workers. We present two adaptive cascade algorithms designed for streaming, per-partition execution in which each worker processes its partition independently without inter-worker communication. SUPG-IT extends the SUPG statistical framework to streaming execution with iterative threshold refinement and joint precision-recall guarantees. GAMCAL replaces user-specified quality targets with a learned calibration model: a Generalized Additive Model maps proxy scores to calibrated probabilities with uncertainty quantification, enabling direct optimization of a cost-quality tradeoff through a single parameter. Experiments on six datasets in a production semantic SQL engine show that both algorithms achieve F1 > 0.95 on every dataset. GAMCAL achieves higher F1 per oracle call at cost-sensitive operating points, while SUPG-IT reaches a higher quality ceiling with formal guarantees on precision and recall.