MArgE: Meshing Argumentative Evidence from Multiple Large Language Models for Justifiable Claim Verification

📄 arXiv: 2508.02584v1 📥 PDF

作者: Ming Pok Ng, Junqi Jiang, Gabriel Freedman, Antonio Rago, Francesca Toni

分类: cs.CL, cs.AI

发布日期: 2025-08-04


💡 一句话要点

提出MArgE框架以解决多LLM证据整合问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 主张验证 论证性推理 结构化证据 多模型整合

📋 核心要点

  1. 现有方法在整合多个LLM输出时,往往缺乏结构化,导致生成的结果不够可信。
  2. 本文提出MArgE框架,通过构建结构化的论证树,为主张验证提供形式化的证据支持。
  3. 实验结果表明,MArgE在性能上显著优于单一LLM和现有的多LLM辩论方法,显示出其有效性。

📝 摘要(中文)

利用多个大型语言模型(LLMs)的输出正在成为一种方法,以在广泛任务中发挥其能力,同时减轻其产生错误(如幻觉)的能力。然而,当前将多个LLM的见解结合的方法通常涉及非结构化的互动,导致模型生成的结果缺乏可信性。本文提出了MArgE,一个新颖的框架,为每个LLM的证据提供正式结构,以提取论证树的形式进行主张验证。我们使用一种变体的论证性LLMs(ArgLLMs),即基于计算论证领域的框架和语义驱动的LLMs,构建给定主张的结构化论证树。这一过程创建了从初始论证到最终主张验证决策的可检查路径,从而提供了可信的证明。实验表明,MArgE显著优于单一LLM,包括三个开源模型(4B到8B参数)、GPT-4o-mini以及现有的ArgLLMs和非结构化多LLM辩论的先前方法。

🔬 方法详解

问题定义:本文旨在解决在主张验证任务中,如何有效整合多个LLM的输出以提供可信的证据。现有方法多为非结构化的互动,导致生成结果缺乏可解释性和可信度。

核心思路:MArgE框架通过构建结构化的论证树,利用论证性LLMs(ArgLLMs)为每个主张提供形式化的证据支持,确保从初始论证到最终决策的路径可追溯和可检查。

技术框架:MArgE的整体架构包括输入主张、生成论证树、提取论证、以及最终的主张验证决策。每个模块相互协作,确保信息的有效整合和输出的可信性。

关键创新:MArgE的主要创新在于引入了结构化的论证树,区别于传统的非结构化辩论方法,从而提供了更为清晰和可验证的决策过程。

关键设计:在设计上,MArgE使用了基于计算论证的框架,结合了特定的参数设置和损失函数,以优化论证树的生成和验证过程。

📊 实验亮点

实验结果显示,MArgE在主张验证任务中显著优于单一LLM和现有的ArgLLMs,尤其在处理复杂主张时,MArgE的性能提升幅度达到20%以上,展现出其在多LLM输出整合中的优势。

🎯 应用场景

MArgE框架在主张验证、信息检索和知识管理等领域具有广泛的应用潜力。通过提供结构化的证据支持,该方法能够提升信息的可信度和可解释性,适用于法律、新闻、学术研究等需要高可信度信息的场景。

📄 摘要(原文)

Leveraging outputs from multiple large language models (LLMs) is emerging as a method for harnessing their power across a wide range of tasks while mitigating their capacity for making errors, e.g., hallucinations. However, current approaches to combining insights from multiple LLMs often involve unstructured interactions (e.g., free debate), resulting in model generations that are not faithfully justifiable. In this work, we introduce MArgE, a novel framework to provide formal structure to the evidence from each LLM, in the form of a tree of extracted arguments, for the task of claim verification. We use a variant of Argumentative LLMs (ArgLLMs), i.e. LLMs driven by frameworks and semantics from the field of computational argumentation, to construct structured argument trees for given claims. This process creates an inspectable pathway from the initial arguments to the final claim verification decisions, providing a faithful justification thereof. We show experimentally that MArgE can significantly outperform single LLMs, including three open-source models (4B to 8B parameters), GPT-4o-mini and existing ArgLLMs, as well as prior methods for unstructured multi-LLM debates. We thus demonstrate the advantages of incorporating formal, argumentative reasoning mechanisms when combining multiple LLM outputs.