Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

📄 arXiv: 2603.06503v1 📥 PDF

作者: Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul

分类: cs.CL

发布日期: 2026-03-06


💡 一句话要点

提出BRTR:基于Agent的迭代式检索框架,用于多模态电子表格理解与编辑。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子表格理解 多模态学习 Agent框架 迭代检索 大型语言模型

📋 核心要点

  1. 现有方法在处理复杂电子表格时,单次检索丢失关键上下文,压缩降低分辨率,全上下文注入超出LLM窗口。
  2. BRTR采用Agent框架,通过迭代工具调用循环代替单次检索,支持端到端的Excel工作流,实现多步骤推理。
  3. 实验表明,BRTR在多个基准测试中显著超越现有方法,最高提升达32个百分点,并保持了完全的可审计性。

📝 摘要(中文)

近年来,多模态检索增强生成(RAG)技术使大型语言模型(LLM)能够分析包含数百万单元格、跨表依赖和嵌入式视觉工件的企业电子表格。然而,现有方法通过单次检索排除关键上下文,通过压缩降低数据分辨率,并通过简单的全上下文注入超出LLM上下文窗口,从而阻碍了对复杂企业工作簿进行可靠的多步骤推理。我们引入了超越行到推理(BRTR),这是一个用于电子表格理解的多模态Agent框架,它用迭代工具调用循环代替单次检索,支持从复杂分析到结构化编辑的端到端Excel工作流。在超过200小时的专家人工评估的支持下,BRTR在三个前沿电子表格理解基准测试中实现了最先进的性能,在FRTR-Bench上超过先前方法25个百分点,在SpreadsheetLLM上超过7个百分点,在FINCH上超过32个百分点。我们评估了五种多模态嵌入模型,确定NVIDIA NeMo Retriever 1B是混合表格和视觉数据的最佳性能者,并改变了九种LLM。消融实验证实,规划器、检索和迭代推理都做出了实质性贡献,成本分析表明GPT-5.2实现了最佳的效率-准确性权衡。在所有评估中,BRTR通过显式工具调用跟踪保持了完全的可审计性。

🔬 方法详解

问题定义:现有方法在处理包含大量数据、复杂依赖关系和视觉信息的企业级电子表格时,面临着上下文信息丢失、数据分辨率降低以及超出LLM上下文窗口的问题。这些问题阻碍了LLM对电子表格进行准确理解和有效编辑,限制了其在实际应用中的价值。

核心思路:BRTR的核心思路是将单次检索替换为迭代式的工具调用循环。通过Agent的规划能力,将复杂任务分解为多个步骤,并在每个步骤中利用工具进行信息检索和处理。这种迭代的方式能够逐步获取和整合所需信息,避免一次性检索带来的信息丢失和上下文超载问题。

技术框架:BRTR框架包含以下主要模块:1) 规划器(Planner):负责将用户请求分解为一系列可执行的步骤。2) 检索器(Retriever):根据规划器提供的指令,从电子表格中检索相关信息。论文评估了多种多模态嵌入模型,用于表格和视觉数据的检索。3) LLM:利用检索到的信息进行推理和决策,并调用相应的工具。4) 工具集(Tool Set):提供各种操作电子表格的工具,例如读取单元格、写入单元格、执行公式等。整个流程是一个迭代循环,直到完成用户请求。

关键创新:BRTR的关键创新在于其Agentic的迭代式检索框架。与传统的单次检索方法相比,BRTR能够更有效地利用LLM的推理能力,逐步获取和整合所需信息,从而更好地理解和编辑复杂的电子表格。此外,BRTR还支持多模态信息的处理,能够同时利用表格数据和视觉信息进行推理。

关键设计:论文评估了多种LLM和多模态嵌入模型,并进行了消融实验,以确定各个模块对整体性能的贡献。成本分析表明,GPT-5.2在效率和准确性之间取得了最佳的平衡。此外,BRTR还设计了显式的工具调用跟踪机制,以保证整个过程的可审计性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BRTR在三个电子表格理解基准测试中取得了显著的性能提升:在FRTR-Bench上超过先前方法25个百分点,在SpreadsheetLLM上超过7个百分点,在FINCH上超过32个百分点。实验还表明,NVIDIA NeMo Retriever 1B是混合表格和视觉数据的最佳嵌入模型,GPT-5.2在效率和准确性之间取得了最佳平衡。

🎯 应用场景

BRTR可应用于企业财务分析、数据报告生成、自动化数据录入与校对等领域。通过提升LLM对复杂电子表格的理解和编辑能力,BRTR能够显著提高工作效率,降低人工成本,并为企业决策提供更准确的数据支持。未来,该技术有望扩展到更广泛的结构化文档处理领域。

📄 摘要(原文)

Recent advances in multimodal Retrieval-Augmented Generation (RAG) enable Large Language Models (LLMs) to analyze enterprise spreadsheet workbooks containing millions of cells, cross-sheet dependencies, and embedded visual artifacts. However, state-of-the-art approaches exclude critical context through single-pass retrieval, lose data resolution through compression, and exceed LLM context windows through naive full-context injection, preventing reliable multi-step reasoning over complex enterprise workbooks. We introduce Beyond Rows to Reasoning (BRTR), a multimodal agentic framework for spreadsheet understanding that replaces single-pass retrieval with an iterative tool-calling loop, supporting end-to-end Excel workflows from complex analysis to structured editing. Supported by over 200 hours of expert human evaluation, BRTR achieves state-of-the-art performance across three frontier spreadsheet understanding benchmarks, surpassing prior methods by 25 percentage points on FRTR-Bench, 7 points on SpreadsheetLLM, and 32 points on FINCH. We evaluate five multimodal embedding models, identifying NVIDIA NeMo Retriever 1B as the top performer for mixed tabular and visual data, and vary nine LLMs. Ablation experiments confirm that the planner, retrieval, and iterative reasoning each contribute substantially, and cost analysis shows GPT-5.2 achieves the best efficiency-accuracy trade-off. Throughout all evaluations, BRTR maintains full auditability through explicit tool-call traces.