LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning

作者: Zifan Xu, Haozhu Wang, Dmitriy Bespalov, Xian Wu, Peter Stone, Yanjun Qi

分类: cs.CL, cs.AI

发布日期: 2023-12-07 (更新: 2025-06-20)

期刊: Findings of Empirical Methods in Natural Language Processing 2024

💡 一句话要点

提出LaRS，通过无监督学习潜在推理技能提升CoT推理效果

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 上下文学习 无监督学习 潜在推理技能 大型语言模型

📋 核心要点

现有CoT推理依赖人工或预训练LLM定义推理技能，成本高且难以扩展。
LaRS通过无监督学习构建理由的潜在空间，学习推理策略以选择合适的示例。
实验表明LaRS在速度、效率和鲁棒性方面优于现有技能选择方法。

📝 摘要（中文）

思维链（CoT）提示是一种流行的大型语言模型（LLM）上下文学习（ICL）方法，尤其是在处理复杂的推理任务时。传统的ICL方法使用包含与输入问题相似问题的示例来构建提示。然而，CoT提示在其示例中包含关键的中间推理步骤（理由），因此需要基于这些理由而不是问题本身来选择示例。现有方法需要人类专家或预训练的LLM来描述技能（理由的高级抽象）以指导选择，但这些方法通常成本高昂且难以扩展。本文提出了一种名为潜在推理技能（LaRS）的新方法，该方法采用无监督学习来创建理由的潜在空间表示，其中潜在变量称为推理技能。同时，LaRS学习一种推理策略来确定给定问题所需的推理技能。然后，通过对齐过去示例和问题之间的推理技能来选择ICL示例。该方法具有理论基础且计算效率高，无需辅助LLM推理或手动提示设计。实验结果表明，LaRS始终优于SOTA的基于技能的选择方法，处理示例库的速度快四倍，选择阶段的LLM推理次数减少一半，并且对次优示例库表现出更强的鲁棒性。

🔬 方法详解

问题定义：现有的思维链（CoT）推理方法在选择合适的示例时，依赖于人工专家或预训练的大型语言模型（LLM）来定义推理技能，即对理由（rationales）进行高层次的抽象描述。这种方法存在两个主要的痛点：一是成本高昂，需要大量的人工标注或昂贵的LLM推理；二是难以扩展，因为针对不同的任务可能需要重新设计技能描述。

核心思路：LaRS的核心思路是通过无监督学习自动发现潜在的推理技能。它假设不同的理由可以被映射到一个低维的潜在空间中，这个空间中的每个维度代表一种推理技能。通过学习问题和理由之间的关系，LaRS可以预测给定问题所需的推理技能，并选择具有相似技能的示例。

技术框架：LaRS包含两个主要模块：1) 潜在推理技能学习模块：该模块使用自编码器或变分自编码器等无监督学习方法，将理由映射到潜在空间中，学习推理技能的表示。2) 推理策略学习模块：该模块学习一个策略网络，用于预测给定问题所需的推理技能。该策略网络以问题为输入，输出潜在空间中的一个向量，表示问题所需的推理技能。在选择示例时，LaRS计算问题和候选示例之间的推理技能相似度，选择相似度最高的示例。

关键创新：LaRS的关键创新在于使用无监督学习自动发现潜在的推理技能，避免了人工标注或昂贵的LLM推理。与现有方法相比，LaRS具有更高的效率和可扩展性。此外，LaRS还学习了一个推理策略，用于预测给定问题所需的推理技能，从而可以更准确地选择合适的示例。

关键设计：LaRS的关键设计包括：1) 使用Transformer模型作为自编码器的编码器和解码器，以更好地捕捉理由中的语义信息。2) 使用余弦相似度作为推理技能相似度的度量，以衡量问题和示例之间的推理技能匹配程度。3) 使用对比学习损失函数来训练推理策略网络，以鼓励相似问题的推理技能表示更加接近。

📊 实验亮点

LaRS在多个推理任务上取得了显著的性能提升。实验结果表明，LaRS在处理示例库的速度上比SOTA方法快四倍，选择阶段的LLM推理次数减少一半，并且对次优示例库表现出更强的鲁棒性。这表明LaRS不仅提高了推理性能，还降低了计算成本，使其更具实用价值。

🎯 应用场景

LaRS可应用于各种需要复杂推理的任务，例如数学问题求解、常识推理、代码生成等。通过自动选择合适的示例，LaRS可以提高大型语言模型的推理能力，并降低人工干预的成本。该研究对于提升AI系统的自动化水平和智能化程度具有重要意义，并有望推动AI技术在更多领域的应用。

📄 摘要（原文）

Chain-of-thought (CoT) prompting is a popular in-context learning (ICL) approach for large language models (LLMs), especially when tackling complex reasoning tasks. Traditional ICL approaches construct prompts using examples that contain questions similar to the input question. However, CoT prompting, which includes crucial intermediate reasoning steps (rationales) within its examples, necessitates selecting examples based on these rationales rather than the questions themselves. Existing methods require human experts or pre-trained LLMs to describe the skill, a high-level abstraction of rationales, to guide the selection. These methods, however, are often costly and difficult to scale. Instead, this paper introduces a new approach named Latent Reasoning Skills (LaRS) that employs unsupervised learning to create a latent space representation of rationales, with a latent variable called a reasoning skill. Concurrently, LaRS learns a reasoning policy to determine the required reasoning skill for a given question. Then the ICL examples are selected by aligning the reasoning skills between past examples and the question. This approach is theoretically grounded and compute-efficient, eliminating the need for auxiliary LLM inference or manual prompt design. Empirical results demonstrate that LaRS consistently outperforms SOTA skill-based selection methods, processing example banks four times faster, reducing LLM inferences during the selection stage by half, and showing greater robustness to sub-optimal example banks.

LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册