Multilingual Hidden Prompt Injection Attacks on LLM-Based Academic Reviewing

📄 arXiv: 2512.23684v1 📥 PDF

作者: Panagiotis Theocharopoulos, Ajinkya Kulkarni, Mathew Magimai. -Doss

分类: cs.CL, cs.AI

发布日期: 2025-12-29


💡 一句话要点

多语言隐藏提示注入攻击影响LLM学术评审,不同语言脆弱性差异显著

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM 提示注入攻击 学术评审 多语言 对抗性攻击

📋 核心要点

  1. LLM在学术评审等高风险场景应用面临安全挑战,文档级隐藏提示注入攻击是潜在威胁。
  2. 论文通过在学术论文中嵌入多语言对抗性提示,评估LLM评审系统的脆弱性。
  3. 实验表明,英语、日语和中文的提示注入能显著改变评审结果,不同语言影响程度不同。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被考虑用于高影响的工作流程,包括学术同行评审。然而,LLM容易受到文档级别的隐藏提示注入攻击。本文构建了一个包含约500篇ICML接收的真实学术论文的数据集,并评估了在这些文档中嵌入隐藏对抗性提示的效果。每篇论文都被注入了四种不同语言的语义等效指令,并使用LLM进行评审。研究发现,提示注入对英语、日语和中文注入的评审分数和接受/拒绝决定产生了重大影响,而阿拉伯语注入几乎没有产生任何影响。这些结果突出了基于LLM的评审系统对文档级别提示注入的敏感性,并揭示了不同语言之间脆弱性的显著差异。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在学术评审中面临的文档级隐藏提示注入攻击的威胁。现有方法缺乏对这种攻击方式的有效防御,使得LLM在评审过程中可能受到恶意指令的影响,导致评审结果的偏差,甚至做出错误的决策。

核心思路:论文的核心思路是通过在真实的学术论文中嵌入多语言的对抗性提示,来模拟攻击者可能采用的手段,从而评估LLM评审系统对这种攻击的脆弱性。通过观察LLM在受到不同语言提示注入后的评审结果变化,分析不同语言对攻击效果的影响。

技术框架:论文的技术框架主要包括以下几个步骤:1) 构建包含ICML接收论文的数据集;2) 对每篇论文进行多语言(英语、日语、中文、阿拉伯语)的对抗性提示注入,确保语义等效;3) 使用LLM对注入提示的论文进行评审;4) 分析评审分数和接受/拒绝决定的变化,评估攻击效果。

关键创新:论文的关键创新在于:1) 首次系统性地研究了多语言隐藏提示注入攻击对LLM学术评审的影响;2) 揭示了不同语言在提示注入攻击中的脆弱性差异,为防御策略的设计提供了新的视角;3) 使用真实学术论文作为攻击载体,更贴近实际应用场景,提高了研究的实用价值。

关键设计:论文的关键设计包括:1) 选择ICML接收的论文作为数据集,保证了论文的质量和代表性;2) 使用四种不同语言进行提示注入,考察了语言对攻击效果的影响;3) 对抗性提示的设计需要保证语义等效,避免影响论文本身的含义;4) 评审结果的评估指标包括评审分数和接受/拒绝决定,能够全面反映攻击的影响。

📊 实验亮点

实验结果表明,英语、日语和中文的提示注入对LLM评审结果有显著影响,导致评审分数和接受/拒绝决定发生变化。阿拉伯语的提示注入效果不明显,揭示了不同语言在提示注入攻击中的脆弱性差异。这些发现为开发更有效的防御策略提供了重要依据。

🎯 应用场景

该研究成果可应用于提升基于LLM的学术评审系统的安全性,例如开发针对提示注入攻击的防御机制,或设计更鲁棒的评审流程。此外,该研究也为其他LLM应用场景(如合同审查、法律咨询等)的安全性评估提供了参考,有助于构建更可靠的人工智能系统。

📄 摘要(原文)

Large language models (LLMs) are increasingly considered for use in high-impact workflows, including academic peer review. However, LLMs are vulnerable to document-level hidden prompt injection attacks. In this work, we construct a dataset of approximately 500 real academic papers accepted to ICML and evaluate the effect of embedding hidden adversarial prompts within these documents. Each paper is injected with semantically equivalent instructions in four different languages and reviewed using an LLM. We find that prompt injection induces substantial changes in review scores and accept/reject decisions for English, Japanese, and Chinese injections, while Arabic injections produce little to no effect. These results highlight the susceptibility of LLM-based reviewing systems to document-level prompt injection and reveal notable differences in vulnerability across languages.