Differentially Private Multimodal In-Context Learning

📄 arXiv: 2603.04894v1 📥 PDF

作者: Ivoline C. Ngong, Zarreen Reza, Joseph P. Near

分类: cs.AI

发布日期: 2026-03-05


💡 一句话要点

提出DP-MTV框架,实现视觉-语言模型中多模态上下文学习的差分隐私保护。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 差分隐私 多模态学习 上下文学习 视觉-语言模型 任务向量

📋 核心要点

  1. 现有差分隐私上下文学习方法在视觉-语言模型中面临挑战,尤其是在多模态和多样本场景下,隐私成本高昂。
  2. DP-MTV通过将大量演示压缩成紧凑的任务向量,并在激活空间中进行聚合,有效降低了隐私成本。
  3. 实验表明,DP-MTV在保证隐私的同时,能够保留上下文学习的性能优势,并在VizWiz数据集上取得了显著成果。

📝 摘要(中文)

视觉-语言模型越来越多地应用于医疗成像和个人照片等敏感领域,但现有的上下文学习差分隐私方法仅限于少样本、纯文本设置,因为隐私成本随处理的token数量而增加。我们提出了差分隐私多模态任务向量(DP-MTV),这是第一个通过将数百个演示聚合到激活空间中的紧凑任务向量中,实现具有形式化$(\varepsilon, δ)$-差分隐私的多样本多模态上下文学习的框架。DP-MTV将私有数据划分为不相交的块,应用逐层裁剪来限制敏感度,并向聚合添加校准噪声,只需要单个噪声添加,从而实现无限的推理查询。我们在三个VLM架构的八个基准上进行了评估,支持使用或不使用辅助数据进行部署。在$\varepsilon=1.0$时,DP-MTV在VizWiz上实现了50%的准确率,而非私有模型为55%,零样本模型为35%,在有意义的隐私约束下保留了上下文学习的大部分增益。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLM)在敏感领域应用时,如何实现多模态上下文学习的差分隐私保护问题。现有差分隐私方法在处理多模态数据和多样本学习时,由于隐私预算会随着token数量线性增长,导致隐私成本过高,限制了其在实际场景中的应用。

核心思路:论文的核心思路是将多个演示样本压缩成一个低维的“任务向量”,该向量能够代表这些样本的共性特征,从而减少需要进行差分隐私保护的数据量。通过在激活空间中聚合这些任务向量,可以有效地降低隐私成本,同时保留上下文学习的性能。

技术框架:DP-MTV框架主要包含以下几个步骤:1) 将私有数据划分为不相交的块;2) 对每个块中的数据进行前向传播,提取每一层的激活值;3) 对每一层的激活值进行裁剪,以限制其敏感度;4) 将裁剪后的激活值聚合,得到任务向量;5) 向聚合后的任务向量添加校准噪声,以满足差分隐私的要求。该框架允许在不添加额外噪声的情况下进行无限次的推理查询。

关键创新:DP-MTV的关键创新在于提出了“任务向量”的概念,并通过在激活空间中聚合任务向量来实现差分隐私保护。与传统的token级别的差分隐私方法相比,DP-MTV能够显著降低隐私成本,从而支持多模态和多样本的上下文学习。

关键设计:DP-MTV的关键设计包括:1) 逐层裁剪策略,用于限制每一层激活值的敏感度;2) 校准噪声的添加,以保证差分隐私的要求;3) 任务向量的聚合方式,旨在保留上下文学习的性能。具体的参数设置,如裁剪阈值和噪声水平,需要根据具体的隐私预算和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DP-MTV在$\varepsilon=1.0$的隐私预算下,在VizWiz数据集上实现了50%的准确率,接近非私有模型的55%,远高于零样本模型的35%。这表明DP-MTV能够在保证隐私的同时,保留上下文学习的大部分性能增益。此外,该框架支持在多个VLM架构上进行部署,并可以灵活地使用或不使用辅助数据。

🎯 应用场景

DP-MTV框架可应用于医疗影像分析、个人照片处理等涉及敏感数据的视觉-语言模型应用场景。该研究成果有助于在保护用户隐私的前提下,充分利用多模态上下文学习的优势,提升模型在这些领域的性能和可靠性。未来,该方法有望推广到更多隐私敏感的AI应用中。

📄 摘要(原文)

Vision-language models are increasingly applied to sensitive domains such as medical imaging and personal photographs, yet existing differentially private methods for in-context learning are limited to few-shot, text-only settings because privacy cost scales with the number of tokens processed. We present Differentially Private Multimodal Task Vectors (DP-MTV), the first framework enabling many-shot multimodal in-context learning with formal $(\varepsilon, δ)$-differential privacy by aggregating hundreds of demonstrations into compact task vectors in activation space. DP-MTV partitions private data into disjoint chunks, applies per-layer clipping to bound sensitivity, and adds calibrated noise to the aggregate, requiring only a single noise addition that enables unlimited inference queries. We evaluate on eight benchmarks across three VLM architectures, supporting deployment with or without auxiliary data. At $\varepsilon=1.0$, DP-MTV achieves 50% on VizWiz compared to 55% non-private and 35% zero-shot, preserving most of the gain from in-context learning under meaningful privacy constraints.