Backdoor Attacks on Decentralised Post-Training
作者: Oğuzhan Ersoy, Nikolay Blagoev, Jona te Lintelo, Stefanos Koffas, Marina Krček, Stjepan Picek
分类: cs.CR, cs.LG
发布日期: 2026-04-06
💡 一句话要点
提出针对分散式后训练语言模型的后门攻击,可有效降低模型对齐率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后门攻击 分散式后训练 流水线并行 大型语言模型 模型安全
📋 核心要点
- 分散式后训练易受恶意参与者的攻击,现有研究主要集中于数据投毒,缺乏对后门攻击的关注。
- 该论文提出一种针对流水线并行的后门攻击,攻击者控制流水线中间阶段,使模型在后训练中错位。
- 实验表明,该攻击能有效降低模型对齐率,即使应用安全对齐训练,攻击仍能在一定程度上成功。
📝 摘要(中文)
本文提出了一种针对分散式后训练大型语言模型的后门攻击方法。分散式后训练利用数据和流水线并行技术来分割数据和模型,但这种方式容易受到恶意参与者的投毒和后门攻击。尽管已有针对分散式数据并行或联邦学习的攻击和防御研究,但针对流水线并行鲁棒性的研究主要集中在投毒攻击上。据我们所知,本文首次提出了针对流水线并行的后门攻击,旨在使训练后的模型错位。在该设置中,攻击者控制流水线的中间阶段,而非整个模型或数据集,这使得现有的数据投毒等攻击方法不再适用。实验结果表明,即使是这种受限的攻击者也可以注入后门,并在后训练期间导致模型错位,且与学习的领域或数据集无关。通过我们的攻击,触发词的包含将对齐率从80%降低到6%。我们进一步通过对最终模型应用安全对齐训练来测试攻击的鲁棒性,结果表明我们的后门攻击在60%的情况下仍然成功。
🔬 方法详解
问题定义:论文旨在解决分散式后训练大型语言模型过程中,流水线并行架构面临的后门攻击问题。现有方法主要关注数据投毒攻击,忽略了攻击者控制流水线中间阶段时可能发起的后门攻击,这使得模型在后训练过程中容易被恶意篡改,导致模型性能下降甚至失效。
核心思路:论文的核心思路是利用攻击者对流水线中间阶段的控制权,在特定输入中植入触发词,从而在后训练过程中使模型学习到错误的关联,导致模型在遇到包含触发词的输入时产生错误的输出。这种方法不需要控制整个模型或数据集,降低了攻击的难度。
技术框架:该攻击框架主要包括以下几个阶段:1) 选择流水线中的一个中间阶段作为攻击点;2) 设计触发词,该触发词能够显著改变模型的输出;3) 在训练数据中插入包含触发词的样本,并确保这些样本能够通过攻击者控制的中间阶段;4) 进行后训练,使模型学习到触发词与错误输出之间的关联。
关键创新:该论文的关键创新在于首次提出了针对流水线并行架构的后门攻击方法。与传统的数据投毒攻击不同,该攻击不需要控制整个数据集,只需要控制流水线中的一个中间阶段即可实现。此外,该攻击能够绕过一些常见的防御机制,例如安全对齐训练。
关键设计:在实验中,触发词的选择至关重要。论文选择的触发词能够显著改变模型的输出,并且在语义上与原始输入无关,以避免被防御机制检测到。此外,论文还调整了触发词的插入频率和位置,以优化攻击效果。损失函数方面,论文采用交叉熵损失函数来衡量模型输出与预期输出之间的差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该后门攻击能够显著降低模型的对齐率,从80%降低到6%。即使在应用安全对齐训练后,攻击仍然能够在60%的情况下成功。这些结果表明,该攻击具有很强的鲁棒性和有效性,对分散式后训练的安全性构成了严重威胁。
🎯 应用场景
该研究成果可应用于评估和提升分散式后训练大型语言模型的安全性。通过模拟和分析后门攻击,可以帮助开发者发现系统中的潜在漏洞,并设计更有效的防御机制,从而确保模型的可靠性和安全性。此外,该研究还可以促进对联邦学习等分布式训练方法安全性的深入理解。
📄 摘要(原文)
Decentralised post-training of large language models utilises data and pipeline parallelism techniques to split the data and the model. Unfortunately, decentralised post-training can be vulnerable to poisoning and backdoor attacks by one or more malicious participants. There have been several works on attacks and defenses against decentralised data parallelism or federated learning. However, existing works on the robustness of pipeline parallelism are limited to poisoning attacks. To the best of our knowledge, this paper presents the first backdoor attack on pipeline parallelism, designed to misalign the trained model. In our setup, the adversary controls an intermediate stage of the pipeline rather than the whole model or the dataset, making existing attacks, such as data poisoning, inapplicable. Our experimental results show that even such a limited adversary can inject the backdoor and cause misalignment of the model during post-training, independent of the learned domain or dataset. With our attack, the inclusion of the trigger word reduces the alignment percentage from $80\%$ to $6\%$. We further test the robustness of our attack by applying safety alignment training on the final model, and demonstrate that our backdoor attack still succeeds in $60\%$ of cases.