Aryabhata: An exam-focused language model for JEE Math

📄 arXiv: 2508.08665v2 📥 PDF

作者: Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma

分类: cs.AI

发布日期: 2025-08-12 (更新: 2025-08-13)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出Aryabhata以优化印度JEE数学考试的语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 教育技术 强化学习 语言模型 JEE考试 开源模型

📋 核心要点

  1. 现有的大型语言模型在教育领域的应用效果不佳,尤其是在针对特定考试的数学推理方面。
  2. Aryabhata 1.0通过合并开放权重推理模型,并结合监督微调和强化学习,专门针对JEE考试进行优化。
  3. 在JEE Main 2025和其他基准测试中,Aryabhata在准确性和效率上均表现优异,提供了有效的逐步推理能力。

📝 摘要(中文)

我们提出了Aryabhata 1.0,这是一个紧凑的7B参数数学推理模型,专为印度的联合入学考试(JEE)优化。尽管大型语言模型(LLMs)迅速发展,但现有模型在教育应用中仍不够理想。Aryabhata 1.0通过合并强大的开放权重推理模型,并在经过验证的思维链(CoT)轨迹上进行监督微调(SFT),结合课程学习,来构建。为了进一步提升性能,我们应用了可验证奖励的强化学习(RLVR),使用A2C目标和组相对优势估计,以及自适应组调整和温度缩放等新探索策略。在JEE Main 2025和其他基准测试中,Aryabhata在准确性和效率上超越了现有模型,同时提供了有助于教学的逐步推理。我们将Aryabhata作为基础模型发布,以推动以考试为中心的开源小型语言模型的发展。

🔬 方法详解

问题定义:论文旨在解决现有大型语言模型在教育应用,特别是针对JEE数学考试时的不足,现有模型无法有效支持学生的学习和推理需求。

核心思路:通过合并强大的开放权重推理模型,并在此基础上进行监督微调和强化学习,Aryabhata 1.0专注于提供高效的数学推理能力,以适应特定的考试需求。

技术框架:整体架构包括模型合并、监督微调和强化学习三个主要阶段。首先,合并多个推理模型以增强基础能力;其次,通过课程学习进行微调;最后,应用强化学习策略以提升模型的推理质量和准确性。

关键创新:最重要的技术创新在于结合了可验证奖励的强化学习(RLVR)和新颖的探索策略,如自适应组调整和温度缩放,这些方法显著提升了模型的推理能力和学习效果。

关键设计:在参数设置上,模型采用7B参数设计,损失函数结合了传统的交叉熵损失与强化学习的奖励机制,网络结构则基于现有的强大推理模型进行优化和调整。

📊 实验亮点

在实验中,Aryabhata在JEE Main 2025和其他基准测试(如MATH和GSM8K)中表现出色,准确性和效率均超过现有模型。具体而言,Aryabhata在准确性上提升了X%(具体数据未知),并在推理速度上实现了Y%的效率提升,显示出其在教育应用中的巨大潜力。

🎯 应用场景

该研究的潜在应用领域包括教育技术、在线学习平台和智能辅导系统。Aryabhata 1.0的设计旨在帮助学生更好地准备JEE考试,提供个性化的学习体验,并有助于提高整体学习效果。未来,这种模型还可以扩展到其他学科和考试类型,推动教育公平和质量的提升。

📄 摘要(原文)

We present Aryabhata 1.0, a compact 7B parameter math reasoning model optimized for the Indian academic exam, the Joint Entrance Examination (JEE). Despite rapid progress in large language models (LLMs), current models often remain unsuitable for educational use. Aryabhata 1.0 is built by merging strong open-weight reasoning models, followed by supervised fine-tuning (SFT) with curriculum learning on verified chain-of-thought (CoT) traces curated through best-of-$n$ rejection sampling. To further boost performance, we apply reinforcement learning with verifiable rewards (RLVR) using A2C objective with group-relative advantage estimation along with novel exploration strategies such as Adaptive Group Resizing and Temperature Scaling. Evaluated on both in-distribution (JEE Main 2025) and out-of-distribution (MATH, GSM8K) benchmarks, Aryabhata outperforms existing models in accuracy and efficiency, while offering pedagogically useful step-by-step reasoning. We release Aryabhata as a foundation model to advance exam-centric, open-source small language models. This marks our first open release for community feedback (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0); PW is actively training future models to further improve learning outcomes for students.