EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation
作者: Zihang Li, Yuhang Wang, Yikun Zong, Wenhan Yu, Xiaokun Yuan, Runhan Jiang, Zirui Liu, Tong Yang, Arthur Jiang
分类: cs.AI
发布日期: 2026-01-07
💡 一句话要点
EntroCoT:通过自适应熵引导分割增强思维链推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 思维链 CoT 大型语言模型 LLM 数学推理 数据集质量 熵 蒙特卡罗方法
📋 核心要点
- 现有CoT微调数据集存在“答案对但推理错”问题,导致模型学习到虚假或无效的推理路径。
- EntroCoT通过熵引导分割和蒙特卡罗rollout评估,自动识别并过滤低质量的CoT推理轨迹。
- 实验表明,在EntroCoT构建的高质量子集上微调,显著优于在完整数据集上微调的基线模型。
📝 摘要(中文)
思维链(CoT)提示显著提升了大型语言模型(LLM)的数学推理能力。然而,现有的微调数据集经常存在“答案正确但推理错误”的问题,即正确的最终答案是由虚构的、冗余的或逻辑上无效的中间步骤推导出来的。本文提出了EntroCoT,一个统一的框架,用于自动识别和改进低质量的CoT监督轨迹。EntroCoT首先提出了一种基于熵的机制,在不确定时刻将推理轨迹分割成多个步骤,然后引入一种基于蒙特卡罗rollout的机制来评估每个步骤的边际贡献。通过准确地过滤掉具有欺骗性的推理样本,EntroCoT构建了一个高质量的数据集,其中每个推理轨迹中的每个中间步骤都有助于最终答案。在数学基准上的大量实验表明,在EntroCoT构建的子集上进行微调始终优于全数据集监督的基线。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在进行思维链推理时,训练数据集中存在的“答案正确但推理错误”的问题。现有的微调数据集包含大量由幻觉、冗余或逻辑无效的步骤推导出的正确答案,这些低质量的推理轨迹会误导模型,降低其推理能力。
核心思路:论文的核心思路是通过自动识别和过滤低质量的CoT推理轨迹,构建一个高质量的微调数据集。该数据集中的每个中间步骤都应该对最终答案有实际的贡献,从而提高模型学习到的推理路径的可靠性和有效性。
技术框架:EntroCoT框架包含两个主要阶段:1) 基于熵的推理轨迹分割:利用熵值来衡量推理过程中每个步骤的不确定性,并在不确定性较高的位置将推理轨迹分割成多个步骤。2) 基于蒙特卡罗rollout的步骤评估:通过蒙特卡罗方法评估每个步骤对最终答案的边际贡献,从而识别出对答案没有帮助甚至有害的步骤。
关键创新:EntroCoT的关键创新在于其自动识别和过滤低质量CoT推理轨迹的能力。与以往依赖人工标注或简单规则的方法不同,EntroCoT利用熵和蒙特卡罗方法,能够更准确地评估每个步骤的质量,并构建一个更干净、更有效的微调数据集。
关键设计:熵的计算方式未知,论文中蒙特卡罗rollout的具体实现细节也未知。但整体思路是通过多次采样和评估,计算每个步骤对最终结果的平均影响。最终,根据步骤的边际贡献,选择高质量的推理轨迹用于微调。
📊 实验亮点
实验结果表明,在数学基准测试中,使用EntroCoT构建的子集进行微调,性能始终优于使用完整数据集进行微调的基线模型。具体的性能提升数据未知,但论文强调了EntroCoT在提高模型推理能力方面的有效性。
🎯 应用场景
EntroCoT可以应用于各种需要思维链推理的场景,例如数学问题求解、常识推理、代码生成等。通过构建高质量的训练数据集,可以显著提高大型语言模型在这些任务上的性能和可靠性。该方法还可以用于自动评估和改进现有的CoT数据集,从而降低人工标注的成本。
📄 摘要(原文)
Chain-of-Thought (CoT) prompting has significantly enhanced the mathematical reasoning capabilities of Large Language Models. We find existing fine-tuning datasets frequently suffer from the "answer right but reasoning wrong" probelm, where correct final answers are derived from hallucinated, redundant, or logically invalid intermediate steps. This paper proposes EntroCoT, a unified framework for automatically identifying and refining low-quality CoT supervision traces. EntroCoT first proposes an entropy-based mechanism to segment the reasoning trace into multiple steps at uncertain junctures, and then introduces a Monte Carlo rollout-based mechanism to evaluate the marginal contribution of each step. By accurately filtering deceptive reasoning samples, EntroCoT constructs a high-quality dataset where every intermediate step in each reasoning trace facilitates the final answer. Extensive experiments on mathematical benchmarks demonstrate that fine-tuning on the subset constructed by EntroCoT consistently outperforms the baseslines of full-dataset supervision.