Differentially Private Multimodal In-Context Learning

作者: Ivoline C. Ngong, Zarreen Reza, Joseph P. Near

分类: cs.AI

发布日期: 2026-03-05

💡 一句话要点

提出DP-MTV框架，实现视觉-语言模型中多模态上下文学习的差分隐私保护。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 差分隐私 多模态学习 上下文学习 视觉-语言模型 任务向量

📋 核心要点

现有差分隐私上下文学习方法在视觉-语言模型中面临挑战，尤其是在多模态和多样本场景下，隐私成本高昂。
DP-MTV通过将大量演示压缩成紧凑的任务向量，并在激活空间中进行聚合，有效降低了隐私成本。
实验表明，DP-MTV在保证隐私的同时，能够保留上下文学习的性能优势，并在VizWiz数据集上取得了显著成果。

📝 摘要（中文）

视觉-语言模型越来越多地应用于医疗成像和个人照片等敏感领域，但现有的上下文学习差分隐私方法仅限于少样本、纯文本设置，因为隐私成本随处理的token数量而增加。我们提出了差分隐私多模态任务向量（DP-MTV），这是第一个通过将数百个演示聚合到激活空间中的紧凑任务向量中，实现具有形式化$(\varepsilon, δ)$-差分隐私的多样本多模态上下文学习的框架。DP-MTV将私有数据划分为不相交的块，应用逐层裁剪来限制敏感度，并向聚合添加校准噪声，只需要单个噪声添加，从而实现无限的推理查询。我们在三个VLM架构的八个基准上进行了评估，支持使用或不使用辅助数据进行部署。在$\varepsilon=1.0$时，DP-MTV在VizWiz上实现了50%的准确率，而非私有模型为55%，零样本模型为35%，在有意义的隐私约束下保留了上下文学习的大部分增益。

🔬 方法详解

问题定义：论文旨在解决视觉-语言模型（VLM）在敏感领域应用时，如何实现多模态上下文学习的差分隐私保护问题。现有差分隐私方法在处理多模态数据和多样本学习时，由于隐私预算会随着token数量线性增长，导致隐私成本过高，限制了其在实际场景中的应用。

核心思路：论文的核心思路是将多个演示样本压缩成一个低维的“任务向量”，该向量能够代表这些样本的共性特征，从而减少需要进行差分隐私保护的数据量。通过在激活空间中聚合这些任务向量，可以有效地降低隐私成本，同时保留上下文学习的性能。

技术框架：DP-MTV框架主要包含以下几个步骤：1) 将私有数据划分为不相交的块；2) 对每个块中的数据进行前向传播，提取每一层的激活值；3) 对每一层的激活值进行裁剪，以限制其敏感度；4) 将裁剪后的激活值聚合，得到任务向量；5) 向聚合后的任务向量添加校准噪声，以满足差分隐私的要求。该框架允许在不添加额外噪声的情况下进行无限次的推理查询。

关键创新：DP-MTV的关键创新在于提出了“任务向量”的概念，并通过在激活空间中聚合任务向量来实现差分隐私保护。与传统的token级别的差分隐私方法相比，DP-MTV能够显著降低隐私成本，从而支持多模态和多样本的上下文学习。

关键设计：DP-MTV的关键设计包括：1) 逐层裁剪策略，用于限制每一层激活值的敏感度；2) 校准噪声的添加，以保证差分隐私的要求；3) 任务向量的聚合方式，旨在保留上下文学习的性能。具体的参数设置，如裁剪阈值和噪声水平，需要根据具体的隐私预算和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DP-MTV在$\varepsilon=1.0$的隐私预算下，在VizWiz数据集上实现了50%的准确率，接近非私有模型的55%，远高于零样本模型的35%。这表明DP-MTV能够在保证隐私的同时，保留上下文学习的大部分性能增益。此外，该框架支持在多个VLM架构上进行部署，并可以灵活地使用或不使用辅助数据。

🎯 应用场景

DP-MTV框架可应用于医疗影像分析、个人照片处理等涉及敏感数据的视觉-语言模型应用场景。该研究成果有助于在保护用户隐私的前提下，充分利用多模态上下文学习的优势，提升模型在这些领域的性能和可靠性。未来，该方法有望推广到更多隐私敏感的AI应用中。

📄 摘要（原文）

Vision-language models are increasingly applied to sensitive domains such as medical imaging and personal photographs, yet existing differentially private methods for in-context learning are limited to few-shot, text-only settings because privacy cost scales with the number of tokens processed. We present Differentially Private Multimodal Task Vectors (DP-MTV), the first framework enabling many-shot multimodal in-context learning with formal $(\varepsilon, δ)$-differential privacy by aggregating hundreds of demonstrations into compact task vectors in activation space. DP-MTV partitions private data into disjoint chunks, applies per-layer clipping to bound sensitivity, and adds calibrated noise to the aggregate, requiring only a single noise addition that enables unlimited inference queries. We evaluate on eight benchmarks across three VLM architectures, supporting deployment with or without auxiliary data. At $\varepsilon=1.0$, DP-MTV achieves 50% on VizWiz compared to 55% non-private and 35% zero-shot, preserving most of the gain from in-context learning under meaningful privacy constraints.

Differentially Private Multimodal In-Context Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理