Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning
作者: Sam Silver, Jimin Sun, Ivan Zhang, Sara Hooker, Eddie Kim
分类: cs.CL, cs.AI
发布日期: 2025-06-18
💡 一句话要点
提出单轮自我纠错机制以提升语言模型推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 自我纠错 推理能力 思维链 合成扰动 实验研究 人工智能
📋 核心要点
- 现有大型语言模型在推理过程中对输入的微小变化表现出脆弱性,导致性能不稳定。
- 本文通过实验探讨语言模型在思维链推理中自我纠错的能力,揭示其潜在的内在特性。
- 实验结果显示,模型在面对合成扰动时,能够有效进行单轮自我纠错,表现出较强的纠错能力。
📝 摘要(中文)
大型语言模型(LLMs)在数学推理方面表现出色,但对问题描述和提示策略的微小变化仍然敏感。此外,推理过程易受采样引起的错误影响,导致自回归模型需通过生成额外的标记进行自我纠错。为深入理解近期模型的自我纠错能力,本文通过实验测量模型在其思维链(CoT)推理中引入的合成扰动下的自我纠错能力。结果显示,多个开放权重模型和数据集上均表现出强大的单轮自我纠错行为,涵盖从微妙的隐式纠正到明确的错误承认和纠正。研究表明,即使未针对长思维链进行微调的LLMs,可能也具备比文献中常见的更强的内在自我纠错能力。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在推理过程中对输入扰动的脆弱性,现有方法在处理微小变化时表现不佳,导致推理结果不稳定。
核心思路:通过引入合成扰动,研究语言模型的自我纠错能力,探索其在单轮推理中的表现,旨在揭示模型内在的自我纠错特性。
技术框架:实验设计包括多个开放权重模型和数据集,采用合成扰动的方法对模型的推理过程进行干扰,并观察模型的自我纠错行为。
关键创新:本研究的创新在于发现了未经过长思维链微调的语言模型也具备强大的自我纠错能力,挑战了现有文献对模型能力的认知。
关键设计:实验中设置了多种扰动类型,评估模型在不同情况下的自我纠错表现,关注隐式和显式纠正的能力。具体参数和损失函数设置未在摘要中详细说明,需参考完整论文。
📊 实验亮点
实验结果显示,多个开放权重模型在面对合成扰动时,能够有效进行单轮自我纠错,表现出强大的内在纠错能力。相比于传统方法,模型在隐式和显式纠正方面均有显著提升,进一步验证了其推理能力的可靠性。
🎯 应用场景
该研究的潜在应用领域包括教育、自动化问答系统和智能助手等,能够提升模型在面对复杂问题时的稳定性和准确性。未来,增强自我纠错能力的模型可能在实际应用中表现出更高的可靠性和用户满意度。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated impressive mathematical reasoning capabilities, yet their performance remains brittle to minor variations in problem description and prompting strategy. Furthermore, reasoning is vulnerable to sampling-induced errors which autoregressive models must primarily address using self-correction via additionally-generated tokens. To better understand self-correction capabilities of recent models, we conduct experiments measuring models' ability to self-correct synthetic perturbations introduced into their Chain of Thought (CoT) reasoning. We observe robust single-utterance intrinsic self-correction behavior across a range of open-weight models and datasets, ranging from subtle, implicit corrections to explicit acknowledgments and corrections of errors. Our findings suggest that LLMs, including those not finetuned for long CoT, may possess stronger intrinsic self-correction capabilities than commonly shown in the literature. The presence of this ability suggests that recent "reasoning" model work involves amplification of traits already meaningfully present in models.