Prompt Injection Attacks on LLM Generated Reviews of Scientific Publications
作者: Janis Keuper
分类: cs.LG
发布日期: 2025-09-12 (更新: 2025-09-25)
💡 一句话要点
揭示LLM生成论文评审中的提示注入攻击风险,并评估其有效性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 提示注入攻击 LLM评审 同行评审 科学出版 ICLR 人工智能安全 模型脆弱性
📋 核心要点
- 现有研究表明,作者可能通过隐藏的提示注入来操纵LLM生成的论文评审分数,这引发了对LLM评审可靠性的担忧。
- 该研究通过系统评估LLM对提示注入攻击的脆弱性,旨在揭示此类攻击的有效性,并评估LLM评审的固有偏差。
- 实验结果表明,简单的提示注入攻击能显著提高论文接受率,同时发现LLM评审普遍存在接受偏好,对同行评审的公正性构成威胁。
📝 摘要(中文)
本文探讨了利用隐藏的提示注入来操纵LLM生成的科学论文评审分数的可能性。这种“攻击”的存在将对LLM在同行评审中的应用产生重大影响。通过对LLM生成的1000篇ICLR 2024论文评审的系统评估,我们发现:I) 非常简单的提示注入确实非常有效,接受率高达100%。II) LLM评审普遍偏向于接受(在许多模型中>95%)。这两个结果都对当前关于LLM在同行评审中使用的讨论具有重大影响。
🔬 方法详解
问题定义:论文旨在研究在LLM生成的科学论文评审中,提示注入攻击是否可行以及其有效性。现有的同行评审流程可能受到恶意作者的攻击,他们试图通过在提交的论文中嵌入提示来影响LLM评审员的判断,从而获得更高的接受分数。这种攻击方式的潜在威胁在于它可能破坏评审过程的公正性和客观性。
核心思路:论文的核心思路是通过系统性的实验来评估不同类型的提示注入攻击对LLM评审结果的影响。通过控制实验变量,例如提示的复杂度和LLM模型的选择,研究人员可以量化攻击的成功率,并分析LLM评审的固有偏差。这种方法能够揭示LLM评审的脆弱性,并为未来的防御策略提供依据。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一组科学论文作为评审对象(ICLR 2024论文)。2) 使用不同的LLM模型生成对这些论文的评审意见。3) 设计不同类型的提示注入攻击,例如在论文中嵌入鼓励接受或拒绝的指令。4) 将包含提示注入的论文提交给LLM评审员进行评审。5) 分析评审结果,评估提示注入攻击的成功率和LLM评审的偏差。
关键创新:该研究的关键创新在于它首次系统性地评估了提示注入攻击对LLM生成论文评审的影响。之前的研究主要集中在LLM在其他领域的应用,而忽略了其在同行评审中的潜在风险。通过量化攻击的成功率和分析LLM评审的偏差,该研究为LLM在同行评审中的安全应用提供了重要的见解。
关键设计:研究的关键设计包括:1) 使用了多种LLM模型,以评估不同模型的脆弱性。2) 设计了不同复杂度的提示注入攻击,以研究攻击的有效性与复杂度的关系。3) 采用了量化的评估指标,例如接受率和评审分数,以客观地评估攻击的成功率。4) 对LLM评审的偏差进行了统计分析,以揭示其固有的偏好。
📊 实验亮点
实验结果表明,简单的提示注入攻击能够显著提高论文的接受率,最高可达100%。此外,研究还发现LLM评审普遍存在接受偏好,在许多模型中,超过95%的评审意见倾向于接受论文。这些发现强调了LLM评审的脆弱性,并对LLM在同行评审中的应用提出了质疑。
🎯 应用场景
该研究结果对学术出版领域具有重要意义。它可以帮助期刊编辑和会议组织者更好地理解LLM评审的局限性,并采取相应的措施来防止提示注入攻击。此外,该研究还可以促进LLM安全性的研究,推动开发更鲁棒的LLM模型,以抵御恶意攻击,确保AI在科学研究中的可靠应用。
📄 摘要(原文)
The ongoing intense discussion on rising LLM usage in the scientific peer-review process has recently been mingled by reports of authors using hidden prompt injections to manipulate review scores. Since the existence of such "attacks" - although seen by some commentators as "self-defense" - would have a great impact on the further debate, this paper investigates the practicability and technical success of the described manipulations. Our systematic evaluation uses 1k reviews of 2024 ICLR papers generated by a wide range of LLMs shows two distinct results: I) very simple prompt injections are indeed highly effective, reaching up to 100% acceptance scores. II) LLM reviews are generally biased toward acceptance (>95% in many models). Both results have great impact on the ongoing discussions on LLM usage in peer-review.