Memory Tokens: Large Language Models Can Generate Reversible Sentence Embeddings

📄 arXiv: 2506.15001v1 📥 PDF

作者: Ignacio Sastre, Aiala Rosá

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-06-17

备注: This paper will be presented at The First Workshop on Large Language Model Memorization (L2M2) at ACL 2025


💡 一句话要点

提出可逆句子嵌入生成方法以提升文本重构能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可逆句子嵌入 大型语言模型 文本重构 记忆标记 信息检索 文本生成 模型优化

📋 核心要点

  1. 现有大型语言模型在生成句子嵌入时,无法实现原始文本的准确重构,限制了其在某些应用中的有效性。
  2. 论文提出通过引入特殊的记忆标记,优化其嵌入以实现可逆句子嵌入,从而使模型能够重构原始文本。
  3. 实验结果表明,Llama 3.1 8B模型在多种语言和长序列上均能成功重构文本,展示了显著的性能提升。

📝 摘要(中文)

本研究观察到一个有趣的现象:可以生成可逆的句子嵌入,使得大型语言模型(LLM)能够在不修改模型权重的情况下,准确重构原始文本。这是通过引入一种特殊的记忆标记实现的,该标记的嵌入通过在固定序列上进行训练进行优化。当使用该嵌入进行提示时,模型能够准确重构该固定序列。我们在英语和西班牙语数据集上评估了这一现象,序列长度达到约240个标记,模型规模从1亿到80亿参数不等。值得注意的是,Llama 3.1 8B成功重构了所有测试序列。我们的发现突显了LLM的一个有趣能力,并暗示了在基于记忆的检索、压缩和受控文本生成方面的潜在应用。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型在生成句子嵌入时无法准确重构原始文本的问题。现有方法在文本重构能力上存在局限性,影响了其在实际应用中的效果。

核心思路:论文的核心解决思路是引入一种特殊的记忆标记,通过对该标记的嵌入进行优化,使得模型能够在接收到该嵌入时准确重构固定序列。这样的设计使得模型在不改变权重的情况下,具备了重构能力。

技术框架:整体架构包括引入记忆标记的嵌入优化过程,模型在训练时通过固定序列进行学习。主要模块包括记忆标记的生成、嵌入优化和重构过程。

关键创新:最重要的技术创新点在于通过记忆标记实现了可逆句子嵌入的生成,这与现有方法的单向嵌入生成形成了本质区别,提供了新的文本重构能力。

关键设计:在技术细节上,论文对记忆标记的嵌入进行了专门的优化,使用了特定的损失函数来确保重构的准确性,并在多个模型规模上进行了验证。具体参数设置和网络结构设计在实验中进行了详细描述。

📊 实验亮点

实验结果显示,Llama 3.1 8B模型在所有测试的序列上均成功重构,展示了其在处理长达240个标记的文本时的强大能力。这一发现表明,模型在多种语言和不同规模下均具备良好的重构性能,具有广泛的应用潜力。

🎯 应用场景

该研究的潜在应用领域包括基于记忆的检索系统、文本压缩技术以及受控文本生成任务。通过实现可逆句子嵌入,模型能够在需要精确重构文本的场景中发挥重要作用,提升信息检索和生成的效率与准确性。

📄 摘要(原文)

In this work, we observe an interesting phenomenon: it is possible to generate reversible sentence embeddings that allow an LLM to reconstruct the original text exactly, without modifying the model's weights. This is achieved by introducing a special memory token, whose embedding is optimized through training on a fixed sequence. When prompted with this embedding, the model reconstructs the fixed sequence exactly. We evaluate this phenomenon across English and Spanish datasets, sequences of up to approximately 240 tokens, and model scales ranging from 100M to 8B parameters. Notably, Llama 3.1 8B successfully reconstructs all tested sequences. Our findings highlight an interesting capability of LLMs and suggest potential applications in memory-based retrieval, compression, and controlled text generation.