Good-Enough LLM Obfuscation (GELO)

📄 arXiv: 2603.05035v1 📥 PDF

作者: Anatoly Belikov, Ilya Fedotov

分类: cs.CR, cs.LG

发布日期: 2026-03-05


💡 一句话要点

提出GELO,通过动态混淆隐藏状态,保护大语言模型在共享加速器上的推理隐私。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 隐私保护 推理加速 同态加密 安全计算 盲源分离 可信执行环境

📋 核心要点

  1. 现有密码学方法(MPC、FHE)推理速度慢,静态混淆易受统计攻击,无法有效保护LLM在共享加速器上的推理隐私。
  2. GELO通过对每批次的隐藏状态进行可逆混合,限制信息泄露,将攻击转化为单批次的盲源分离问题。
  3. 实验表明,GELO在Llama-2 7B上以较低的延迟开销(20-30%)实现了与低精度基线相当的性能,并有效防御了多种攻击。

📝 摘要(中文)

大型语言模型(LLM)越来越多地在共享加速器上部署,攻击者可以通过读取设备内存来观察KV缓存和隐藏状态,从而威胁开源模型的prompt隐私。密码学保护(如MPC和FHE)虽然提供强大的安全保证,但交互式推理速度慢一到两个数量级;静态混淆方案在模型已知的情况下,容易受到多轮统计攻击。我们提出了GELO(Good-Enough LLM Obfuscation),一种轻量级的隐私保护推理协议,通过使用新鲜的、每批次可逆的混合来隐藏隐藏状态,从而限制来自不可信加速器观察的信息泄露。对于每个卸载的投影,TEE采样一个随机矩阵A,形成U = AH,将U和权重W卸载到加速器,然后在返回时应用A^-1,使得A^-1 ((AH)W ) = HW,输出不变。由于混合不会在批次之间重用,攻击者仅面临单批次的盲源分离问题。我们分析了信息泄露,并引入了两种实用的防御措施:(i)非正交混合来掩盖Gram矩阵,以及(ii)正交混合,并增加一小部分高能量“屏蔽”向量来污染高阶统计量。在Llama-2 7B上,GELO精确地保留了float32输出,与低精度基线非常匹配,以大约20-30%的延迟开销卸载了主要的矩阵乘法,并击败了一系列ICA/BSS和基于锚点的攻击。

🔬 方法详解

问题定义:在共享加速器上部署LLM时,攻击者可以通过读取设备内存获取KV缓存和隐藏状态,从而威胁模型的prompt隐私。现有的密码学方法(如MPC和FHE)虽然安全,但计算开销过大,无法满足交互式推理的需求。静态混淆方法在模型已知的情况下,容易受到多轮统计攻击,安全性不足。

核心思路:GELO的核心思想是通过对每一批次的隐藏状态进行可逆的线性变换(混合),来隐藏真实的隐藏状态,从而限制信息泄露。由于每次混合都是随机且唯一的,攻击者只能获得混合后的隐藏状态,并且无法通过多轮统计分析来恢复原始信息。这种方法在计算开销和安全性之间取得了较好的平衡。

技术框架:GELO的整体流程如下:1. TEE(可信执行环境)采样一个随机可逆矩阵A。2. 将隐藏状态H与A相乘,得到混合后的状态U = AH。3. 将U和权重W卸载到加速器进行计算。4. 从加速器返回结果后,TEE应用A的逆矩阵A^-1,得到原始的计算结果HW = A^-1(UW)。整个过程保证了计算结果的正确性,同时隐藏了真实的隐藏状态H。

关键创新:GELO的关键创新在于使用动态的、每批次不同的可逆混合矩阵来隐藏隐藏状态。与静态混淆方法相比,GELO可以有效防御多轮统计攻击。此外,GELO还引入了非正交混合和高能量“屏蔽”向量等防御手段,进一步增强了安全性。

关键设计:GELO的关键设计包括:1. 随机矩阵A的选择:为了保证可逆性,A通常选择为高斯随机矩阵或正交矩阵。2. 非正交混合:通过引入非正交性,可以掩盖Gram矩阵,增加攻击难度。3. 高能量“屏蔽”向量:在正交混合的基础上,增加少量高能量的随机向量,可以污染高阶统计量,进一步防御攻击。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Llama-2 7B上的实验表明,GELO能够精确地保留float32输出,并且与低精度基线非常匹配。GELO以大约20-30%的延迟开销卸载了主要的矩阵乘法,并且成功防御了一系列ICA/BSS和基于锚点的攻击,证明了其在保护LLM推理隐私方面的有效性。

🎯 应用场景

GELO可应用于各种需要保护LLM推理隐私的场景,例如云端LLM服务、边缘设备上的隐私计算等。该技术可以有效防止未经授权的访问和数据泄露,保护用户隐私和模型安全,促进LLM在安全敏感领域的应用。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly served on shared accelerators where an adversary with read access to device memory can observe KV caches and hidden states, threatening prompt privacy for open-source models. Cryptographic protections such as MPC and FHE offer strong guarantees but remain one to two orders of magnitude too slow for interactive inference, while static obfuscation schemes break under multi-run statistical attacks once the model is known. We present GELO (Good-Enough LLM Obfuscation), a lightweight protocol for privacy-preserving inference that limits information leakage from untrusted accelerator observations by hiding hidden states with fresh, per-batch invertible mixing. For each offloaded projection, the TEE samples a random matrix A, forms $U = AH$, offloads U and weights W to the accelerator, and then applies $A^-1$ on return, so that $A^-1 ((AH)W ) = HW$ and outputs are unchanged. Because mixing is never reused across batches, the attacker faces only a single-batch blind source separation problem. We analyze information leakage and introduce two practical defenses: (i) non-orthogonal mixing to mask Gram matrices, and (ii) orthogonal mixing augmented with a small fraction of high-energy "shield" vectors that pollute higher-order statistics. On Llama-2 7B, GELO preserves float32 outputs exactly, closely matches low-precision baselines, offloads the dominant matrix multiplications with about 20-30% latency overhead, and defeats a range of ICA/BSS and anchor-based attacks.