HAMMER: Hamiltonian Curiosity Augmented Large Language Model Reinforcement

📄 arXiv: 2509.25240v1 📥 PDF

作者: Ming Yang, Xiaofan Li, Zhiyuan Ma, Dengliang Shi, Jintao Du, Yu Cheng, Weiguo Zheng

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-25

备注: 20 pages, 7 figures, 4 tables


💡 一句话要点

HAMMER:基于哈密顿好奇心增强的大语言模型强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大语言模型 课程学习 多样性 哈密顿路径

📋 核心要点

  1. 现有基于难度的课程强化学习方法易陷入局部最优,导致模型探索能力不足。
  2. HAMMER将数据集多样性指标引入强化学习,通过哈密顿路径排序样本,鼓励早期探索。
  3. 实验表明,HAMMER能有效提升模型“好奇心”,并在多个基准测试中平均提升3%-4%的准确率。

📝 摘要(中文)

针对大语言模型(LLM)的课程强化学习通常依赖于基于难度的标注来进行数据过滤和排序。然而,这些方法容易陷入局部优化,早期步骤中对简单样本的持续训练可能导致策略失去探索能力。我们提出了一种新的方案,即哈密顿好奇心增强的大语言模型强化学习(HAMMER),它将通常用于数据集评估的多样性指标转移到动态强化学习过程中,其中训练样本通过最小语义哈密顿路径进行排序,使得初始训练能够进行更多的探索。从泛化界限的理论角度来看,多样性驱动的排序有助于稳定的收敛。经验评估表明,HAMMER激发了模型的“好奇心”,并在不同的推理基准测试中始终实现了3%到4%的平均准确率提升。

🔬 方法详解

问题定义:现有的大语言模型强化学习方法,特别是课程学习方法,依赖于样本难度进行排序,容易陷入局部最优。模型在早期阶段过度关注简单样本,导致后期探索能力下降,无法充分利用数据中的信息,最终影响模型的泛化性能。

核心思路:HAMMER的核心思路是将数据集多样性引入强化学习过程,通过鼓励模型在训练初期探索更多不同的样本,来避免陷入局部最优。具体来说,它利用哈密顿路径来排序训练样本,使得模型在训练初期能够接触到更多具有代表性的样本,从而激发模型的“好奇心”,提升探索能力。

技术框架:HAMMER的整体框架包括以下几个主要步骤:1) 使用多样性指标(例如,基于语义相似度的指标)评估训练数据集的多样性;2) 构建一个图,其中节点代表训练样本,边代表样本之间的语义距离;3) 使用哈密顿路径算法在该图上找到一条最小语义距离的路径,作为训练样本的排序;4) 使用该排序后的样本序列进行强化学习训练,优化大语言模型的策略。

关键创新:HAMMER的关键创新在于将数据集多样性指标与强化学习过程相结合,并使用哈密顿路径来指导样本排序。这与传统的基于难度的课程学习方法不同,后者只关注样本的难度,而忽略了样本之间的多样性。HAMMER通过鼓励模型探索更多不同的样本,来提升模型的泛化能力和鲁棒性。

关键设计:HAMMER的关键设计包括:1) 多样性指标的选择:可以使用各种基于语义相似度的指标,例如,基于BERT嵌入的余弦相似度;2) 哈密顿路径算法的选择:可以使用各种近似算法来寻找哈密顿路径,例如,最近邻算法;3) 强化学习算法的选择:可以使用各种强化学习算法,例如,PPO或DQN;4) 奖励函数的设计:奖励函数可以根据具体的任务进行设计,例如,可以使用任务完成的奖励或探索新状态的奖励。

📊 实验亮点

HAMMER在多个推理基准测试中取得了显著的性能提升,平均准确率提升了3%到4%。这些结果表明,HAMMER能够有效地激发模型的“好奇心”,提升模型的探索能力和泛化性能。与传统的基于难度的课程学习方法相比,HAMMER能够更好地避免陷入局部最优,从而获得更好的训练效果。

🎯 应用场景

HAMMER方法可应用于各种需要大语言模型进行策略学习的场景,例如对话生成、文本摘要、机器翻译等。通过提升模型的探索能力和泛化性能,HAMMER可以帮助大语言模型更好地适应不同的任务和环境,提高其在实际应用中的表现。该方法还有潜力应用于机器人控制、游戏AI等领域,提升智能体的学习效率和决策能力。

📄 摘要(原文)

Recent curriculum reinforcement learning for large language models (LLMs) typically rely on difficulty-based annotations for data filtering and ordering. However, such methods suffer from local optimization, where continual training on simple samples in the early steps can cause the policy to lose its exploration. We propose a novel schema, namely Hamiltonian curiosity augmented large language model reinforcement (HAMMER), that transfers diversity metrics, commonly used in dataset evaluation, into the dynamic reinforcement learning procedure, where training samples are ordered via a minimum-semantic Hamiltonian path making the initial training retrain more exploration. From a theoretical perspective of generalization bounds, diversity-driven ordering facilitates stable convergence. Empirical evaluations indicate that HAMMER stimulates model "curiosity" and consistently achieves a 3% to 4% average accuracy gain across diverse inference benchmark.