T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

📄 arXiv: 2508.19813v4 📥 PDF

作者: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li

分类: cs.CL

发布日期: 2025-08-27 (更新: 2025-09-23)


💡 一句话要点

提出T2R-bench以解决工业表格信息报告生成问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格推理 报告生成 工业应用 基准测试 大语言模型

📋 核心要点

  1. 现有方法在将复杂多样的表格信息转化为报告时,推理结果往往不理想,且缺乏有效的评估基准。
  2. 本文提出了表格到报告的任务,并构建了T2R-bench基准,旨在提升表格信息转化为报告的能力。
  3. 实验结果显示,当前最先进的模型在T2R-bench上的表现仍有提升空间,整体得分仅为62.71。

📝 摘要(中文)

大量研究已探讨大型语言模型(LLMs)在表格推理中的能力。然而,将表格信息转化为报告的任务在工业应用中仍然面临重大挑战,主要体现在表格的复杂性和多样性导致推理结果不佳,以及现有基准无法充分评估该任务的实际应用。为填补这一空白,本文提出了表格到报告的任务,并构建了一个名为T2R-bench的双语基准,涵盖457个来自真实场景的工业表格,涉及19个行业领域和4种工业表格类型。此外,本文提出了一套评估标准,以公正衡量报告生成的质量。对25个广泛使用的LLMs的实验表明,即使是最先进的模型Deepseek-R1,其整体得分也仅为62.71,表明LLMs在T2R-bench上仍有提升空间。

🔬 方法详解

问题定义:本文旨在解决将复杂的工业表格信息转化为可读报告的任务。现有方法在处理多样化表格时,推理效果不佳,且缺乏有效的评估标准。

核心思路:论文提出了表格到报告的任务,并构建了T2R-bench基准,旨在通过真实场景中的工业表格提升报告生成的质量。通过引入双语数据,增强了模型的适应性和实用性。

技术框架:整体架构包括数据收集、预处理、模型训练和评估四个主要模块。数据收集阶段从19个行业领域获取457个工业表格,预处理阶段对数据进行清洗和格式化,模型训练阶段使用25个主流LLMs进行训练,评估阶段则采用新提出的评估标准。

关键创新:最重要的创新点在于构建了T2R-bench基准,填补了现有表格推理任务评估的空白,并提出了针对工业表格的特定评估标准。

关键设计:在模型训练中,采用了多种损失函数以优化生成报告的质量,并设计了适应性强的网络结构,以处理不同类型的工业表格数据。

📊 实验亮点

实验结果显示,当前最先进的模型Deepseek-R1在T2R-bench上的整体得分仅为62.71,表明在表格到报告的生成任务上,现有LLMs仍有显著的提升空间。这一发现强调了该领域的研究潜力和未来改进的方向。

🎯 应用场景

该研究的潜在应用领域包括工业数据分析、自动报告生成和智能决策支持等。通过提升表格信息转化为报告的能力,能够有效提高企业在数据处理和信息传递方面的效率,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Extensive research has been conducted to explore the capabilities of large language models (LLMs) in table reasoning. However, the essential task of transforming tables information into reports remains a significant challenge for industrial applications. This task is plagued by two critical issues: 1) the complexity and diversity of tables lead to suboptimal reasoning outcomes; and 2) existing table benchmarks lack the capacity to adequately assess the practical application of this task. To fill this gap, we propose the table-to-report task and construct a bilingual benchmark named T2R-bench, where the key information flow from the tables to the reports for this task. The benchmark comprises 457 industrial tables, all derived from real-world scenarios and encompassing 19 industry domains as well as 4 types of industrial tables. Furthermore, we propose an evaluation criteria to fairly measure the quality of report generation. The experiments on 25 widely-used LLMs reveal that even state-of-the-art models like Deepseek-R1 only achieves performance with 62.71 overall score, indicating that LLMs still have room for improvement on T2R-bench.