The Surprising Soupability of Documents in State Space Models

📄 arXiv: 2505.24033v1 📥 PDF

作者: Yasaman Jafari, Zixian Wang, Leon Bergen, Taylor Berg-Kirkpatrick

分类: cs.CL, cs.CE, cs.LG

发布日期: 2025-05-29


💡 一句话要点

提出文档合并策略以提升状态空间模型的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 状态空间模型 文档合并 多跳问答 信息检索 长文档推理 模型微调

📋 核心要点

  1. 现有的状态空间模型在处理长文档和复杂推理任务时面临效率和准确性挑战。
  2. 论文提出的文档合并策略允许独立编码文档并通过简单操作汇聚表示,支持模块化重用。
  3. 实验结果表明,文档合并在多跳问答和长文档推理中表现出色,接近交叉编码器的性能。

📝 摘要(中文)

本研究探讨了结构化状态空间模型(SSMs)中的隐藏状态是否可以后期合并以支持下游推理。受模型合并启发,我们提出了一种策略,通过简单的操作(如平均)将独立编码的文档表示汇聚为单一上下文状态。这种称为文档合并的方法使得模块化编码和重用成为可能,无需对每个查询重新处理完整输入。我们对Mamba2模型进行了微调,以生成可合并的表示,并发现它们在多跳问答、稀疏检索和长文档推理中表现出强大的准确性。在HotpotQA上,十个独立编码的文档合并的性能几乎与在相同输入上训练的交叉编码器相当。

🔬 方法详解

问题定义:本论文旨在解决结构化状态空间模型在处理长文档和复杂推理时的效率和准确性问题。现有方法通常需要对完整输入进行重复处理,导致计算资源浪费和响应时间延长。

核心思路:论文提出的文档合并策略通过独立编码文档并将其表示汇聚为单一上下文状态,旨在实现模块化编码和重用,避免重复处理。这样的设计使得模型在面对不同查询时能够快速响应。

技术框架:整体架构包括文档的独立编码模块和合并模块。首先,多个文档通过Mamba2模型独立编码,随后使用简单的聚合操作(如平均)将这些表示合并为一个上下文状态,供后续推理使用。

关键创新:最重要的技术创新在于提出了文档合并的概念,使得模型能够在不重新处理完整输入的情况下,灵活应对多种查询。这一方法与传统的交叉编码器方法本质上不同,后者需要对所有输入进行联合处理。

关键设计:在模型微调过程中,采用了特定的损失函数以优化合并后的表示质量,并在网络结构上进行了调整,以确保合并操作的有效性和准确性。

📊 实验亮点

实验结果显示,文档合并策略在HotpotQA数据集上,十个独立编码的文档合并后的性能几乎与同样输入上训练的交叉编码器相当,展现出强大的多跳问答和长文档推理能力,准确性显著提升。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、信息检索和长文档理解等。通过提高模型在处理复杂查询时的效率和准确性,文档合并策略能够显著提升用户体验,推动相关领域的技术进步和应用落地。

📄 摘要(原文)

We investigate whether hidden states from Structured State Space Models (SSMs) can be merged post-hoc to support downstream reasoning. Inspired by model souping, we propose a strategy where documents are encoded independently and their representations are pooled -- via simple operations like averaging -- into a single context state. This approach, which we call document souping, enables modular encoding and reuse without reprocessing the full input for each query. We finetune Mamba2 models to produce soupable representations and find that they support multi-hop QA, sparse retrieval, and long-document reasoning with strong accuracy. On HotpotQA, souping ten independently encoded documents nearly matches the performance of a cross-encoder trained on the same inputs.