nchellwig at SemEval-2026 Task 3: Self-Consistent Structured Generation (SCSG) for Dimensional Aspect-Based Sentiment Analysis using Large Language Models
作者: Nils Constantin Hellwig, Jakob Fehle, Udo Kruschwitz, Christian Wolff
分类: cs.CL
发布日期: 2026-03-02
💡 一句话要点
提出自洽结构化生成(SCSG)方法,利用大语言模型解决维度情感分析问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感分析 大语言模型 自洽性 结构化生成 LoRA微调
📋 核心要点
- 维度情感分析任务面临预测可靠性问题,现有方法难以保证结果的一致性。
- SCSG方法通过多次执行LoRA适配的LLM并取多数共识结果,提升预测可靠性。
- 实验表明,SCSG在多种语言和领域上显著优于单次推理,并在特定数据集上取得领先。
📝 摘要(中文)
本文提出了一种用于SemEval-2026 Task 3(Track A)中维度情感分析的自洽结构化生成(SCSG)方法。SCSG通过对每个实例多次执行LoRA适配的大语言模型,并仅保留在多次运行中达成多数共识的元组,从而提高预测的可靠性。为了减轻多次前向传播的计算开销,我们利用vLLM的PagedAttention机制来实现高效的键值缓存重用。在6种语言和8种语言-领域组合上的评估表明,具有15次执行的自洽性比单次推理提示产生了统计上显著的改进。我们的系统(利用Gemma 3)在所有设置中排名前七,在四个英语子集中有三个获得第二名,在Tatar-Restaurant的DimASTE上获得第一名。
🔬 方法详解
问题定义:论文旨在解决维度情感分析(Dimensional Aspect-Based Sentiment Analysis, DimASTE)中预测结果不一致、可靠性低的问题。现有方法通常依赖于单次推理,容易受到噪声数据和模型不确定性的影响,导致结果不稳定。
核心思路:论文的核心思路是利用大语言模型的多次生成结果,通过多数投票机制来提高预测的鲁棒性和一致性。多次生成可以减少模型随机性带来的影响,而多数投票则可以过滤掉不一致的预测结果,从而提高整体的预测可靠性。
技术框架:SCSG方法的技术框架主要包括以下几个步骤:1) 使用LoRA(Low-Rank Adaptation)对大语言模型进行微调,使其适应特定的情感分析任务。2) 对每个输入实例,多次(例如15次)执行微调后的LLM,生成多个预测结果。3) 对每个预测结果进行结构化处理,提取关键信息(例如情感维度和情感强度)。4) 对多次生成的结果进行统计,保留在多数运行中达成共识的元组。5) 利用vLLM的PagedAttention机制,优化多次前向传播过程中的键值缓存重用,降低计算开销。
关键创新:SCSG方法的关键创新在于引入了自洽性(Self-Consistency)的概念,并将其应用于结构化生成任务中。通过多次生成和多数投票,SCSG能够有效地提高预测的可靠性和一致性,从而优于传统的单次推理方法。此外,利用vLLM的PagedAttention机制也降低了计算成本,使得多次生成成为可能。
关键设计:论文的关键设计包括:1) 使用LoRA进行模型微调,以适应特定任务和领域。2) 设置合适的生成次数(例如15次),以在预测可靠性和计算成本之间取得平衡。3) 使用多数投票机制来确定最终的预测结果,并设置合适的阈值来过滤掉不一致的结果。4) 利用vLLM的PagedAttention机制来优化键值缓存重用,降低计算开销。具体参数设置和损失函数细节在论文中未明确给出,可能使用了标准的情感分析任务的损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SCSG方法在6种语言和8种语言-领域组合上均取得了显著的改进。与单次推理相比,具有15次执行的自洽性在统计上显著提高了预测性能。该系统在SemEval-2026 Task 3中表现出色,在四个英语子集中有三个获得第二名,在Tatar-Restaurant的DimASTE上获得第一名。Gemma 3作为基础模型,展现了强大的性能。
🎯 应用场景
该研究成果可应用于舆情监控、产品评论分析、客户服务等领域。通过提高情感分析的准确性和可靠性,可以更有效地理解用户的情感倾向,为企业决策提供支持。未来,该方法可以扩展到其他自然语言处理任务中,例如文本摘要、机器翻译等,提高模型的鲁棒性和泛化能力。
📄 摘要(原文)
We present Self-Consistent Structured Generation (SCSG) for Dimensional Aspect-Based Sentiment Analysis in SemEval-2026 Task 3 (Track A). SCSG enhances prediction reliability by executing a LoRA-adapted large language model multiple times per instance, retaining only tuples that achieve a majority consensus across runs. To mitigate the computational overhead of multiple forward passes, we leverage vLLM's PagedAttention mechanism for efficient key--value cache reuse. Evaluation across 6 languages and 8 language--domain combinations demonstrates that self-consistency with 15 executions yields statistically significant improvements over single-inference prompting, with our system (leveraging Gemma 3) ranking in the top seven across all settings, achieving second place on three out of four English subsets and first place on Tatar-Restaurant for DimASTE.