T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning
作者: Qinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen
分类: cs.CL, cs.AI
发布日期: 2026-03-04
备注: Dataset and Code have been released at https://t2s-bench.github.io/T2S-Bench-Page/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出T2S-Bench基准测试和SoT提示方法,提升LLM在文本到结构推理任务上的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到结构 大型语言模型 提示学习 基准测试 结构化推理 科学文献理解 知识图谱
📋 核心要点
- 现有大型语言模型在复杂阅读任务中缺乏有效利用文本结构的能力,限制了其文本处理性能。
- 论文提出Structure of Thought (SoT) 提示技术,引导模型构建中间文本结构,从而提升理解和推理能力。
- 实验表明,SoT和T2S-Bench基准测试能够显著提升模型在多项文本处理任务上的性能,尤其是在多跳推理和端到端提取方面。
📝 摘要(中文)
本文提出了Structure of Thought (SoT) 提示技术,通过显式引导模型构建中间文本结构,从而提升模型在八个任务和三个模型系列上的性能。同时,构建了T2S-Bench基准,用于评估和改进模型的文本到结构能力。T2S-Bench包含六个科学领域和32种结构类型的1.8K个样本,确保了准确性、公平性和质量。在45个主流模型上的评估表明,模型仍有很大的改进潜力,多跳推理任务的平均准确率仅为52.1%,即使是最先进的模型在端到端提取中的节点准确率也仅为58.1%。在Qwen2.5-7B-Instruct上,SoT单独使用即可在八个不同的文本处理任务中平均提升+5.7%,在T2S-Bench上进行微调后,这一增益进一步提高到+8.6%。这些结果突出了显式文本结构化的价值,以及SoT和T2S-Bench的互补贡献。
🔬 方法详解
问题定义:现有的大型语言模型在处理复杂文本时,难以有效提取和利用文本中的结构化信息,导致在需要深度推理和理解的任务中表现不佳。现有的方法往往侧重于直接从文本到答案的映射,忽略了中间结构化表示的重要性。
核心思路:论文的核心思路是显式地引导模型构建文本的中间结构化表示,即Structure of Thought (SoT)。通过将文本分解为关键点并推断它们之间的关系,模型可以更好地理解文本的内在逻辑,从而提高下游任务的性能。这种方法模拟了人类在阅读理解过程中的信息组织和结构化过程。
技术框架:整体框架包含两个主要部分:一是SoT提示技术,用于引导模型生成中间文本结构;二是T2S-Bench基准测试,用于评估和改进模型的文本到结构能力。SoT提示技术通过特定的prompt,要求模型逐步提取文本中的关键信息,并构建结构化的表示,例如关系图、树状结构等。T2S-Bench提供了一个包含多个领域和结构类型的多样化数据集,用于评估模型在不同场景下的文本到结构转换能力。
关键创新:最重要的技术创新点在于SoT提示技术,它显式地将文本结构化过程引入到LLM的推理过程中。与传统的端到端方法不同,SoT鼓励模型逐步构建中间表示,从而提高了模型的可解释性和鲁棒性。此外,T2S-Bench基准测试的构建也为该领域的研究提供了标准化的评估平台。
关键设计:SoT提示技术的设计需要根据具体的任务和文本类型进行调整。关键在于设计合适的prompt,引导模型提取关键信息并构建相应的结构。T2S-Bench数据集的构建需要保证数据的准确性、公平性和质量,同时覆盖多个领域和结构类型。具体的参数设置和网络结构取决于所使用的LLM和下游任务。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SoT提示技术在多个文本处理任务上取得了显著的性能提升。例如,在Qwen2.5-7B-Instruct模型上,SoT单独使用即可在八个不同的文本处理任务中平均提升+5.7%,在T2S-Bench上进行微调后,这一增益进一步提高到+8.6%。此外,T2S-Bench基准测试揭示了现有模型在多跳推理和端到端提取方面仍有很大的改进空间。
🎯 应用场景
该研究成果可应用于多个领域,例如科学文献理解、知识图谱构建、智能问答系统等。通过提升模型对文本结构的理解能力,可以提高信息检索的准确性、自动化知识发现的效率,并为用户提供更智能化的信息服务。未来,该方法有望应用于更复杂的文本处理任务,例如自动生成摘要、机器翻译等。
📄 摘要(原文)
Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.