A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality
作者: Arther Tian, Alex Ding, Frank Chen, Simon Wu, Aaron Chan
分类: cs.LG, cs.AI, cs.CR
发布日期: 2026-03-04
💡 一句话要点
提出多维度质量评分框架,用于去中心化LLM推理中的质量评估与激励。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 去中心化推理 质量评估 多维度评分 激励机制
📋 核心要点
- 去中心化LLM推理网络面临输出质量评估的挑战,需要有效的激励机制。
- 论文提出多维度质量评分框架,分解质量为多个可量化维度,并进行校准。
- 实验表明,校准后的复合评分器性能优于单一评估器和共识基线,并能提升PoQ的鲁棒性。
📝 摘要(中文)
去中心化的大型语言模型(LLM)推理网络可以汇集异构计算资源以扩展服务能力,但它们需要轻量级且激励兼容的机制来评估输出质量。先前的工作引入了成本感知的质量证明(PoQ)和自适应鲁棒PoQ,以在评估者异构和对抗行为下分配奖励。本文侧重于质量信号本身,并提出了一个多维质量评分框架,将输出质量分解为模块化的维度,包括模型和成本先验、结构质量、语义质量、查询-输出对齐以及一致性/不确定性。通过对来自问答和摘要任务的已记录输出进行系统审计,我们发现看似合理的维度可能是任务相关的,甚至在未校准的情况下与参考质量呈负相关。虽然默认的复合评分低于强大的单一语义评估器,但消融实验表明,移除不可靠的维度并重新归一化权重可以产生一个校准后的复合评分,该评分与最佳的单一评估器和共识基线相匹配或超过它们。最后,我们将复合评分作为PoQ中的一个即插即用质量信号集成,并展示了在对抗性评估者攻击下,与鲁棒聚合和自适应信任加权互补的优势。
🔬 方法详解
问题定义:去中心化LLM推理网络依赖于异构的计算资源,如何有效评估和激励参与者的贡献,保证输出质量是一个关键问题。现有的方法,如单一评估器或简单的共识机制,无法充分捕捉质量的复杂性,并且容易受到恶意参与者的攻击。
核心思路:论文的核心思路是将LLM输出的质量分解为多个维度,例如结构质量、语义质量、查询-输出对齐等,并为每个维度设计相应的评估指标。通过对这些维度进行加权组合,得到一个综合的质量评分。关键在于对各个维度的权重进行校准,以确保评分与真实质量的相关性。
技术框架:该框架包含以下几个主要步骤:1) 定义质量维度:选择合适的质量维度,例如模型和成本先验、结构质量、语义质量、查询-输出对齐以及一致性/不确定性。2) 设计评估指标:为每个维度设计相应的评估指标,可以使用现有的NLP指标或自定义指标。3) 数据收集与标注:收集LLM的输出结果,并进行人工标注,作为ground truth。4) 权重校准:使用标注数据对各个维度的权重进行校准,目标是使综合评分与ground truth的相关性最大化。5) 质量评分:使用校准后的权重对新的LLM输出进行质量评分。
关键创新:该论文的关键创新在于提出了一个多维度的质量评分框架,并强调了对各个维度权重进行校准的重要性。通过实验证明,经过校准的复合评分器可以有效地评估LLM输出的质量,并且比单一评估器和简单的共识机制更鲁棒。
关键设计:论文中一个关键的设计是使用消融实验来评估各个维度的可靠性,并移除那些与参考质量负相关的维度。此外,论文还使用了重归一化权重的方法,以确保各个维度的权重之和为1。在PoQ的应用中,该复合评分被直接用作质量信号,并结合鲁棒聚合和自适应信任加权来进一步提高系统的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过校准的多维度质量评分器性能优于单一语义评估器,并且与最佳的单一评估器和共识基线相匹配或超过它们。在PoQ框架中集成该评分器后,系统在对抗性评估者攻击下的鲁棒性得到了显著提升。
🎯 应用场景
该研究成果可应用于各种去中心化LLM推理平台,用于评估和激励参与者的贡献,提高输出质量。此外,该框架也可用于评估不同LLM模型的性能,为模型选择提供依据。该方法在众包、分布式计算等领域具有广泛的应用前景。
📄 摘要(原文)
Decentralized large language model (LLM) inference networks can pool heterogeneous compute to scale serving, but they require lightweight and incentive-compatible mechanisms to assess output quality. Prior work introduced cost-aware Proof of Quality (PoQ) and adaptive robust PoQ to allocate rewards under evaluator heterogeneity and adversarial behavior. In this paper, we focus on the quality signal itself and propose a multi-dimensional quality scoring framework that decomposes output quality into modular dimensions, including model and cost priors, structure quality, semantic quality, query-output alignment, and agreement/uncertainty. Using logged outputs from QA and summarization tasks, we systematically audit dimension reliability and show that seemingly reasonable dimensions can be task-dependent and even negatively correlated with reference quality without calibration. While the default composite underperforms a strong single semantic evaluator, ablations reveal that removing unreliable dimensions and re-normalizing weights yields a calibrated composite that matches or exceeds the best single- evaluator and consensus baselines. Finally, we integrate the composite score as a drop-in quality signal in PoQ and demonstrate complementary benefits with robust aggregation and adaptive trust weighting under adversarial evaluator attacks.