Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks

📄 arXiv: 2505.05190v2 📥 PDF

作者: Yixin Cheng, Hongcheng Guo, Yangming Li, Leonid Sigal

分类: cs.LG, cs.AI, cs.CL, cs.CR

发布日期: 2025-05-08 (更新: 2025-05-11)

备注: ICML 2025 Accpeted


💡 一句话要点

提出自信息重写攻击以揭示文本水印的脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本水印 自信息重写攻击 攻击算法 水印稳健性 大型语言模型 信息安全 模式识别

📋 核心要点

  1. 现有文本水印算法在高熵标记中嵌入水印,虽然保证了文本质量,但其设计存在被攻击的脆弱性。
  2. 本文提出自信息重写攻击(SIRA),通过计算标记的自信息来识别潜在的水印模式,从而进行针对性攻击。
  3. 实验结果显示,SIRA在七种水印方法上实现了近100%的成功率,且攻击成本极低,表明现有水印技术的脆弱性。

📝 摘要(中文)

文本水印旨在通过控制大型语言模型(LLM)的采样过程,将统计信号巧妙嵌入文本中,使水印检测器能够验证输出是由指定模型生成的。当前的文本水印算法在高熵标记中嵌入水印,以确保文本质量。然而,本文揭示了这一设计的脆弱性,攻击者可以利用这一点,显著威胁水印的稳健性。我们提出了一种通用高效的释义攻击——自信息重写攻击(SIRA),通过计算每个标记的自信息来识别潜在的模式标记并进行有针对性的攻击。实验结果表明,SIRA在七种最新水印方法上实现了近100%的攻击成功率,成本仅为每百万个标记0.88美元。该方法无需访问水印算法或水印LLM,能够无缝迁移到任何LLM,甚至移动级模型。我们的发现强调了对更稳健水印的迫切需求。

🔬 方法详解

问题定义:本文旨在解决当前文本水印算法的脆弱性问题,现有方法在高熵标记中嵌入水印,虽然提高了文本质量,但也暴露了被攻击的风险。

核心思路:提出自信息重写攻击(SIRA),通过计算每个标记的自信息,识别出潜在的水印模式,并进行有针对性的攻击,从而有效地破坏水印的稳健性。

技术框架:SIRA的整体架构包括自信息计算模块、模式识别模块和攻击执行模块。首先计算每个标记的自信息,然后识别出可能的水印模式,最后实施针对性攻击。

关键创新:SIRA的主要创新在于其利用自信息的计算来识别水印模式,这种方法与现有的水印攻击技术相比,具有更高的效率和成功率。

关键设计:在参数设置上,SIRA使用了自信息的计算公式来评估标记的重要性,攻击过程中不需要访问水印算法或水印LLM,确保了其广泛适用性。实验中,攻击成本仅为每百万个标记0.88美元,显示出其经济性。

📊 实验亮点

实验结果显示,自信息重写攻击(SIRA)在七种最新的水印方法上实现了近100%的攻击成功率,且攻击成本仅为每百万个标记0.88美元。这一结果表明,当前水印技术的脆弱性亟需引起重视。

🎯 应用场景

该研究的潜在应用领域包括文本生成、内容创作和信息安全等。随着文本水印技术的广泛应用,SIRA的发现将促使研究者们重新审视水印算法的设计,推动更为稳健的水印技术的发展,确保信息的安全性和可靠性。

📄 摘要(原文)

Text watermarking aims to subtly embed statistical signals into text by controlling the Large Language Model (LLM)'s sampling process, enabling watermark detectors to verify that the output was generated by the specified model. The robustness of these watermarking algorithms has become a key factor in evaluating their effectiveness. Current text watermarking algorithms embed watermarks in high-entropy tokens to ensure text quality. In this paper, we reveal that this seemingly benign design can be exploited by attackers, posing a significant risk to the robustness of the watermark. We introduce a generic efficient paraphrasing attack, the Self-Information Rewrite Attack (SIRA), which leverages the vulnerability by calculating the self-information of each token to identify potential pattern tokens and perform targeted attack. Our work exposes a widely prevalent vulnerability in current watermarking algorithms. The experimental results show SIRA achieves nearly 100% attack success rates on seven recent watermarking methods with only 0.88 USD per million tokens cost. Our approach does not require any access to the watermark algorithms or the watermarked LLM and can seamlessly transfer to any LLM as the attack model, even mobile-level models. Our findings highlight the urgent need for more robust watermarking.