EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation

作者: Zihang Li, Yuhang Wang, Yikun Zong, Wenhan Yu, Xiaokun Yuan, Runhan Jiang, Zirui Liu, Tong Yang, Arthur Jiang

分类: cs.AI

发布日期: 2026-01-07

💡 一句话要点

EntroCoT：通过自适应熵引导分割增强思维链推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链 CoT 大型语言模型 LLM 数学推理 数据集质量 熵 蒙特卡罗方法

📋 核心要点

现有CoT微调数据集存在“答案对但推理错”问题，导致模型学习到虚假或无效的推理路径。
EntroCoT通过熵引导分割和蒙特卡罗rollout评估，自动识别并过滤低质量的CoT推理轨迹。
实验表明，在EntroCoT构建的高质量子集上微调，显著优于在完整数据集上微调的基线模型。

📝 摘要（中文）

思维链（CoT）提示显著提升了大型语言模型（LLM）的数学推理能力。然而，现有的微调数据集经常存在“答案正确但推理错误”的问题，即正确的最终答案是由虚构的、冗余的或逻辑上无效的中间步骤推导出来的。本文提出了EntroCoT，一个统一的框架，用于自动识别和改进低质量的CoT监督轨迹。EntroCoT首先提出了一种基于熵的机制，在不确定时刻将推理轨迹分割成多个步骤，然后引入一种基于蒙特卡罗rollout的机制来评估每个步骤的边际贡献。通过准确地过滤掉具有欺骗性的推理样本，EntroCoT构建了一个高质量的数据集，其中每个推理轨迹中的每个中间步骤都有助于最终答案。在数学基准上的大量实验表明，在EntroCoT构建的子集上进行微调始终优于全数据集监督的基线。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在进行思维链推理时，训练数据集中存在的“答案正确但推理错误”的问题。现有的微调数据集包含大量由幻觉、冗余或逻辑无效的步骤推导出的正确答案，这些低质量的推理轨迹会误导模型，降低其推理能力。

核心思路：论文的核心思路是通过自动识别和过滤低质量的CoT推理轨迹，构建一个高质量的微调数据集。该数据集中的每个中间步骤都应该对最终答案有实际的贡献，从而提高模型学习到的推理路径的可靠性和有效性。

技术框架：EntroCoT框架包含两个主要阶段：1) 基于熵的推理轨迹分割：利用熵值来衡量推理过程中每个步骤的不确定性，并在不确定性较高的位置将推理轨迹分割成多个步骤。2) 基于蒙特卡罗rollout的步骤评估：通过蒙特卡罗方法评估每个步骤对最终答案的边际贡献，从而识别出对答案没有帮助甚至有害的步骤。

关键创新：EntroCoT的关键创新在于其自动识别和过滤低质量CoT推理轨迹的能力。与以往依赖人工标注或简单规则的方法不同，EntroCoT利用熵和蒙特卡罗方法，能够更准确地评估每个步骤的质量，并构建一个更干净、更有效的微调数据集。

关键设计：熵的计算方式未知，论文中蒙特卡罗rollout的具体实现细节也未知。但整体思路是通过多次采样和评估，计算每个步骤对最终结果的平均影响。最终，根据步骤的边际贡献，选择高质量的推理轨迹用于微调。

📊 实验亮点

实验结果表明，在数学基准测试中，使用EntroCoT构建的子集进行微调，性能始终优于使用完整数据集进行微调的基线模型。具体的性能提升数据未知，但论文强调了EntroCoT在提高模型推理能力方面的有效性。

🎯 应用场景

EntroCoT可以应用于各种需要思维链推理的场景，例如数学问题求解、常识推理、代码生成等。通过构建高质量的训练数据集，可以显著提高大型语言模型在这些任务上的性能和可靠性。该方法还可以用于自动评估和改进现有的CoT数据集，从而降低人工标注的成本。

📄 摘要（原文）

Chain-of-Thought (CoT) prompting has significantly enhanced the mathematical reasoning capabilities of Large Language Models. We find existing fine-tuning datasets frequently suffer from the "answer right but reasoning wrong" probelm, where correct final answers are derived from hallucinated, redundant, or logically invalid intermediate steps. This paper proposes EntroCoT, a unified framework for automatically identifying and refining low-quality CoT supervision traces. EntroCoT first proposes an entropy-based mechanism to segment the reasoning trace into multiple steps at uncertain junctures, and then introduces a Monte Carlo rollout-based mechanism to evaluate the marginal contribution of each step. By accurately filtering deceptive reasoning samples, EntroCoT constructs a high-quality dataset where every intermediate step in each reasoning trace facilitates the final answer. Extensive experiments on mathematical benchmarks demonstrate that fine-tuning on the subset constructed by EntroCoT consistently outperforms the baseslines of full-dataset supervision.

EntroCoT: Enhancing Chain-of-Thought via Adaptive Entropy-Guided Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册