BanglaLorica: Design and Evaluation of a Robust Watermarking Algorithm for Large Language Models in Bangla Text Generation

📄 arXiv: 2601.04534v1 📥 PDF

作者: Amit Bin Tariqul, A N M Zahid Hossain Milkan, Sahab-Al-Chowdhury, Syed Rifat Raiyan, Hasan Mahmud, Md Kamrul Hasan

分类: cs.CL, cs.AI

发布日期: 2026-01-08

备注: Under review, 12 pages, 7 figures, 5 tables


💡 一句话要点

BanglaLorica:针对孟加拉语LLM文本生成,提出一种鲁棒的水印算法并进行评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本水印 大型语言模型 孟加拉语 低资源语言 跨语言翻译 鲁棒性 分层水印 信息安全

📋 核心要点

  1. 现有文本水印方法在低资源语言(如孟加拉语)中,面对跨语言往返翻译攻击时,鲁棒性不足,检测精度显著下降。
  2. 提出一种分层水印策略,结合嵌入时水印和生成后水印,以提高在跨语言攻击下的水印检测鲁棒性。
  3. 实验表明,分层水印策略在跨语言往返翻译攻击下,检测精度提升了25-35%,实现了3-4倍的相对改进。

📝 摘要(中文)

随着大型语言模型(LLM)越来越多地用于文本生成,水印技术对于作者身份归属、知识产权保护和滥用检测至关重要。虽然现有的水印方法在高资源语言中表现良好,但它们在低资源语言中的鲁棒性仍未得到充分探索。本文首次系统地评估了最先进的文本水印方法:KGW、指数采样(EXP)和Waterfall,在跨语言往返翻译(RTT)攻击下,对孟加拉语LLM文本生成的水印效果。在良性条件下,KGW和EXP实现了高检测精度(>88%),且对困惑度和ROUGE的影响可忽略不计。然而,RTT导致检测精度崩溃至9-13%,表明token级别水印的根本性失败。为了解决这个问题,我们提出了一种分层水印策略,结合了嵌入时水印和生成后水印。实验结果表明,分层水印将RTT后的检测精度提高了25-35%,达到40-50%的精度,相对于单层方法,实现了3倍至4倍的相对改进,但代价是可控的语义降级。我们的研究结果量化了多语言水印中的鲁棒性-质量权衡,并将分层水印确立为一种实用的、免训练的解决方案,适用于孟加拉语等低资源语言。我们的代码和数据将公开。

🔬 方法详解

问题定义:论文旨在解决低资源语言(特别是孟加拉语)的大型语言模型文本生成中,水印算法在面对跨语言往返翻译(RTT)攻击时鲁棒性不足的问题。现有的token级别水印方法在RTT攻击下,检测精度会大幅下降,无法有效进行版权保护和滥用检测。

核心思路:论文的核心思路是采用分层水印策略,结合嵌入时水印和生成后水印,以提高水印的鲁棒性。嵌入时水印在生成文本的过程中嵌入信息,而生成后水印则在文本生成后进行修改。通过结合两种水印,可以提高水印在面对各种攻击时的生存能力。

技术框架:该方法包含两个主要阶段:嵌入时水印和生成后水印。嵌入时水印阶段,使用现有的水印算法(如KGW、EXP)在生成文本时嵌入水印。生成后水印阶段,对生成的文本进行修改,嵌入额外的水印信息。检测时,同时检测两种水印,以提高检测精度。

关键创新:该方法最重要的创新点在于提出了分层水印策略,将嵌入时水印和生成后水印相结合。这种策略可以有效提高水印在面对跨语言往返翻译等攻击时的鲁棒性,解决了现有token级别水印方法的不足。

关键设计:具体的技术细节包括:1) 嵌入时水印采用KGW或EXP等现有算法,并根据孟加拉语的特点进行调整。2) 生成后水印的设计需要考虑语义保持,避免过度修改文本导致质量下降。3) 两种水印的权重需要进行调整,以达到最佳的鲁棒性-质量平衡。

📊 实验亮点

实验结果表明,在跨语言往返翻译(RTT)攻击下,传统token级别水印方法的检测精度会降至9-13%。而采用分层水印策略后,检测精度可以提高到40-50%,相对于单层方法,实现了3倍至4倍的相对改进。这表明分层水印策略能够显著提高水印在复杂攻击环境下的鲁棒性。

🎯 应用场景

该研究成果可应用于孟加拉语等低资源语言的大型语言模型文本生成领域,用于版权保护、滥用检测和作者身份验证。通过提高水印的鲁棒性,可以有效防止恶意用户篡改或伪造文本,维护知识产权,并追溯不当内容的来源。该方法也可推广到其他低资源语言,具有广泛的应用前景。

📄 摘要(原文)

As large language models (LLMs) are increasingly deployed for text generation, watermarking has become essential for authorship attribution, intellectual property protection, and misuse detection. While existing watermarking methods perform well in high-resource languages, their robustness in low-resource languages remains underexplored. This work presents the first systematic evaluation of state-of-the-art text watermarking methods: KGW, Exponential Sampling (EXP), and Waterfall, for Bangla LLM text generation under cross-lingual round-trip translation (RTT) attacks. Under benign conditions, KGW and EXP achieve high detection accuracy (>88%) with negligible perplexity and ROUGE degradation. However, RTT causes detection accuracy to collapse below RTT causes detection accuracy to collapse to 9-13%, indicating a fundamental failure of token-level watermarking. To address this, we propose a layered watermarking strategy that combines embedding-time and post-generation watermarks. Experimental results show that layered watermarking improves post-RTT detection accuracy by 25-35%, achieving 40-50% accuracy, representing a 3$\times$ to 4$\times$ relative improvement over single-layer methods, at the cost of controlled semantic degradation. Our findings quantify the robustness-quality trade-off in multilingual watermarking and establish layered watermarking as a practical, training-free solution for low-resource languages such as Bangla. Our code and data will be made public.