Good-Enough LLM Obfuscation (GELO)
作者: Anatoly Belikov, Ilya Fedotov
分类: cs.CR, cs.LG
发布日期: 2026-03-05 (更新: 2026-03-06)
💡 一句话要点
GELO:一种轻量级LLM混淆方法,保护共享加速器上的prompt隐私
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 隐私保护 模型混淆 共享加速器 盲源分离
📋 核心要点
- 现有LLM部署在共享加速器上,面临prompt隐私泄露风险,攻击者可从内存中获取KV缓存和隐藏状态。
- GELO通过每次batch都不同的可逆混合矩阵隐藏隐藏状态,限制信息泄露,将攻击转化为单batch盲源分离问题。
- 实验表明,GELO在Llama-2 7B上保持精度,引入少量延迟,并有效防御多种攻击,具有实用性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地在共享加速器上部署,攻击者可以通过读取设备内存来观察KV缓存和隐藏状态,从而威胁开源模型的prompt隐私。密码学保护(如MPC和FHE)提供了强大的安全性,但交互式推理速度慢一到两个数量级,而静态混淆方案在模型已知的情况下,容易受到多轮统计攻击。我们提出了GELO(Good-Enough LLM Obfuscation),一种轻量级的隐私保护推理协议,通过使用新鲜的、每次batch都不同的可逆混合来隐藏隐藏状态,从而限制来自不受信任的加速器观察的信息泄露。对于每个卸载的投影,TEE采样一个随机矩阵A,形成U = AH,将U和权重W卸载到加速器,然后在返回时应用A^{-1},使得A^{-1}((AH)W ) = HW,输出不变。由于混合在不同batch之间从不重复使用,攻击者仅面临单batch的盲源分离问题。我们分析了信息泄露,并引入了两种实用的防御措施:(i)非正交混合来掩盖Gram矩阵,以及(ii)正交混合,并辅以少量高能量的“shield”向量,以污染高阶统计量。在Llama-2 7B上,GELO精确地保留了float32输出,与低精度基线非常匹配,以大约20-30%的延迟开销卸载了主要的矩阵乘法,并击败了一系列ICA/BSS和基于anchor的攻击。
🔬 方法详解
问题定义:在共享加速器上部署LLM时,攻击者可以通过读取设备内存来获取模型的中间表示(如KV缓存和隐藏状态),从而推断出用户的prompt信息。现有的密码学方法(如MPC、FHE)计算开销过大,难以满足交互式推理的需求,而静态混淆方法容易受到统计攻击的破解。因此,如何在保证推理效率的同时,有效地保护LLM的prompt隐私是一个关键问题。
核心思路:GELO的核心思路是在每次推理batch中,对LLM的隐藏状态进行随机的可逆线性变换(混合),使得攻击者无法直接观察到原始的隐藏状态。由于每次batch使用的混合矩阵都是不同的,攻击者只能进行单batch的盲源分离,大大增加了攻击难度。在计算完成后,再通过逆变换恢复原始的隐藏状态,保证输出结果的正确性。
技术框架:GELO主要包含以下几个阶段:1. 在可信执行环境(TEE)中,为每个卸载的投影采样一个随机矩阵A。2. 计算U = AH,其中H是原始的隐藏状态。3. 将U和权重W卸载到加速器进行计算。4. 在TEE中,对返回的结果应用A^{-1},得到A^{-1}(UW) = A^{-1}(AHW) = HW,即原始的计算结果。整个过程的关键在于混合矩阵A的选择和管理,以及TEE的安全性。
关键创新:GELO的关键创新在于使用了动态的、每次batch都不同的可逆混合矩阵来隐藏隐藏状态。与静态混淆方法相比,GELO能够有效防御多轮统计攻击。此外,GELO的设计目标是轻量级,能够在保证一定安全性的前提下,尽量减少对推理性能的影响。
关键设计:为了进一步增强安全性,GELO提出了两种防御策略:1. 使用非正交混合矩阵,以掩盖Gram矩阵,增加盲源分离的难度。2. 使用正交混合矩阵,并辅以少量高能量的“shield”向量,以污染高阶统计量,使得攻击者难以利用统计信息进行攻击。这些策略旨在增加攻击的复杂性,提高GELO的安全性。
🖼️ 关键图片
📊 实验亮点
在Llama-2 7B模型上的实验表明,GELO能够精确地保留float32输出,与低精度基线非常匹配。GELO以大约20-30%的延迟开销卸载了主要的矩阵乘法,并成功防御了一系列ICA/BSS和基于anchor的攻击。这些结果表明,GELO是一种实用且有效的LLM混淆方法。
🎯 应用场景
GELO可应用于各种需要在共享加速器上部署LLM的场景,例如云服务提供商、边缘计算设备等。它能够保护用户的prompt隐私,防止恶意攻击者通过观察内存来窃取敏感信息。GELO的轻量级设计使其易于部署和集成,具有广泛的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly served on shared accelerators where an adversary with read access to device memory can observe KV caches and hidden states, threatening prompt privacy for open-source models. Cryptographic protections such as MPC and FHE offer strong guarantees but remain one to two orders of magnitude too slow for interactive inference, while static obfuscation schemes break under multi-run statistical attacks once the model is known. We present GELO (Good-Enough LLM Obfuscation), a lightweight protocol for privacy-preserving inference that limits information leakage from untrusted accelerator observations by hiding hidden states with fresh, per-batch invertible mixing. For each offloaded projection, the TEE samples a random matrix $A$, forms $U = AH$, offloads $U$ and weights W to the accelerator, and then applies $A^{-1}$ on return, so that $A^{-1}((AH)W ) = HW$ and outputs are unchanged. Because mixing is never reused across batches, the attacker faces only a single-batch blind source separation problem. We analyse information leakage and introduce two practical defences: (i) non-orthogonal mixing to mask Gram matrices, and (ii) orthogonal mixing augmented with a small fraction of high-energy "shield" vectors that pollute higher-order statistics. On Llama-2 7B, GELO preserves float32 outputs exactly, closely matches low-precision baselines, offloads the dominant matrix multiplications with about 20-30% latency overhead, and defeats a range of ICA/BSS and anchor-based attacks.