Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning
作者: Yoonjeon Kim, Doohyuk Jang, Eunho Yang
分类: cs.LG, cs.AI
发布日期: 2025-09-26
备注: preprint
💡 一句话要点
提出MASA自对齐强化学习,提升推理模型元认知能力与泛化性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 元认知 自对齐 强化学习 推理模型 泛化能力
📋 核心要点
- 大型推理模型缺乏元认知能力,导致真实执行过程与预测的元信息不一致,影响推理性能。
- 提出MASA自对齐强化学习方法,通过自生成信号训练元认知能力,对齐元预测与真实执行过程。
- 实验表明,MASA在多个基准测试中显著提高了准确性和训练效率,并增强了领域外泛化能力。
📝 摘要(中文)
本文研究了推理模型中的元认知能力,即模型自我思考方式的认知。研究表明,大型推理模型缺乏这种元认知能力,真实执行过程与预测的元信息之间存在严重的不一致。论文提出,将元预测与真实执行过程对齐能够显著提升性能。为了验证这一假设,设计了一种通过自对齐增强元认知(MASA)的训练流程,证明了增强的元认知能力可以直接转化为准确性的提高。与现有的元认知推理模型不同,该方法不需要外部训练源,而是利用自生成的信号来训练元认知能力。此外,该方法通过过滤零方差提示和提前终止不太可能得到正确答案的冗长执行过程,实现了高效训练。实验结果表明,该策略在领域内任务中显著提高了准确性和训练效率,并在领域外基准测试中表现出强大的泛化能力。具体而言,该方法可以加速GRPO训练超过1.28倍以达到相同的性能,并在AIME25上实现19.3%的准确率提升,在六个数学基准测试中平均提升6.2%。通过元认知指导进行训练增强了领域外泛化能力,在GPQA-Diamond上提升了3.87%,并在涵盖逻辑、科学和编码领域的13个基准测试中实现了2.08%的总体准确率提升。
🔬 方法详解
问题定义:现有大型语言模型在进行复杂推理时,缺乏对自身推理过程的认知(元认知)。这种缺失导致模型无法有效地规划和调整推理步骤,最终影响推理的准确性和效率。现有方法或者依赖外部知识,或者无法有效利用模型自身的反馈信息,存在训练成本高、泛化能力弱等问题。
核心思路:论文的核心思路是通过自对齐的方式,增强模型对自身推理过程的认知。具体来说,模型需要学习预测其推理过程中的元信息(例如,每一步的置信度、下一步行动的价值等),并利用这些元信息来指导推理过程。通过强化学习,鼓励模型生成与真实推理过程一致的元信息,从而提高推理的准确性和效率。
技术框架:MASA的整体框架包含以下几个主要模块:1) 推理模型:负责执行推理任务,并生成推理轨迹。2) 元预测器:预测推理过程中每一步的元信息。3) 强化学习模块:利用自生成的信号,训练元预测器,使其预测的元信息与真实推理过程对齐。4) 过滤模块:过滤掉零方差的prompt,减少无效训练。5) 截断模块:提前终止不太可能成功的推理轨迹,提高训练效率。
关键创新:MASA的关键创新在于其自对齐的训练方式。与现有方法不同,MASA不需要外部训练数据或人工标注,而是利用模型自身生成的推理轨迹和元信息进行训练。这种自监督的方式降低了训练成本,并提高了模型的泛化能力。此外,MASA还通过过滤和截断等策略,提高了训练效率。
关键设计:MASA的关键设计包括:1) 元信息的选择:论文选择了置信度、价值等作为元信息,这些信息能够有效地反映模型的推理状态。2) 强化学习奖励函数的设计:奖励函数鼓励模型生成与真实推理过程一致的元信息,例如,如果模型预测下一步行动的价值很高,但实际执行后导致推理失败,则会受到惩罚。3) 过滤和截断策略:通过设置阈值,过滤掉零方差的prompt和提前终止不太可能成功的推理轨迹。
📊 实验亮点
实验结果表明,MASA在AIME25上实现了19.3%的准确率提升,在六个数学基准测试中平均提升6.2%。此外,MASA还可以加速GRPO训练超过1.28倍以达到相同的性能。在领域外泛化方面,MASA在GPQA-Diamond上提升了3.87%,并在涵盖逻辑、科学和编码领域的13个基准测试中实现了2.08%的总体准确率提升。这些结果表明,MASA能够有效地提升推理模型的元认知能力和泛化性能。
🎯 应用场景
该研究成果可应用于各种需要复杂推理的场景,例如数学问题求解、科学推理、代码生成等。通过提升模型的元认知能力,可以提高这些任务的准确性和效率。此外,该方法还可以应用于智能对话系统,使其能够更好地理解用户的意图,并生成更合理的回复。未来,该研究有望推动人工智能在更广泛领域的应用。
📄 摘要(原文)
Recent studies on reasoning models explore the meta-awareness of language models, the ability to know how to think by itself. We argue that large reasoning models lack this meta-awareness property by proving severe misalignment between true rollouts and predicted meta information. We posit that aligning meta-prediction with true rollouts will lead to significant performance gains. To verify this hypothesis, we design a training pipeline that boosts Meta-Awareness via Self-Alignment (MASA), and prove that enhanced meta-awareness directly translates to improved accuracy. Unlike existing meta-cognitive reasoning models, our method does not require external training sources but leverages self-generated signals to train meta-awareness. Moreover, our method enables efficient training by i) filtering out zero-variance prompts that are either trivial or unsolvable and ii) cutting off lengthy rollouts when they are unlikely to lead to correct answers. The results are inspiring: our strategy yields significant improvements in both accuracy and training efficiency on in-domain tasks and shows strong generalization to out-of-domain benchmarks. More specifically, our method can speed up GRPO training by over 1.28x to reach the same performance, and achieve a 19.3% gain in accuracy on AIME25, and a 6.2 % average gain over six mathematics benchmarks. Training with meta-cognitive guidance enhances out-of-domain generalization, giving a 3.87 % boost on GPQA-Diamond and a 2.08 % overall accuracy gain across 13 benchmarks spanning logical, scientific, and coding domains.