Gradient-Based Data Valuation Improves Curriculum Learning for Game-Theoretic Motion Planning

📄 arXiv: 2604.00388v1 📥 PDF

作者: Shihao Li, Jiachen Li, Dongmei Chen

分类: cs.LG, eess.SY

发布日期: 2026-04-01


💡 一句话要点

利用梯度数据估值改进博弈运动规划的课程学习

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 博弈论运动规划 课程学习 梯度数据估值 TracIn 自动驾驶

📋 核心要点

  1. 现有博弈运动规划训练依赖元数据启发式方法,但其难以捕捉复杂训练动态,导致训练效率低下。
  2. 论文提出利用 TracIn 梯度相似性评分进行数据估值,并以此构建课程,指导模型训练。
  3. 实验表明,该方法在 nuPlan 基准测试上显著优于基于元数据的课程,并降低了方差。

📝 摘要(中文)

本文证明了基于梯度的数据估值能够产生课程排序,显著优于基于元数据的启发式方法,用于训练博弈论运动规划器。具体而言,我们将 TracIn 梯度相似性评分应用于 nuPlan 基准测试上的 GameFormer,并构建一个课程,该课程根据训练场景对验证损失减少的估计贡献进行加权。在三个随机种子中,TracIn 加权课程实现了 1.704±0.029 米的平均规划 ADE,显著优于基于元数据的交互难度课程(1.822±0.014 米;配对 t 检验 p=0.021,Cohen's dz=3.88),同时表现出比均匀基线更低的方差(1.772±0.134 米)。我们的分析表明,TracIn 分数和场景元数据几乎是正交的(Spearman ρ=-0.014),表明基于梯度的估值捕获了手工特征无法察觉的训练动态。我们进一步表明,基于梯度的课程加权在硬数据选择失败的地方取得了成功:TracIn 策划的 20% 子集使性能降低了 2 倍,而使用相同分数的全数据课程加权产生了最佳结果。这些发现确立了基于梯度的数据估值作为提高博弈论规划中样本效率的实用工具。

🔬 方法详解

问题定义:论文旨在解决博弈论运动规划中训练数据利用率低下的问题。现有的方法主要依赖于人工设计的元数据(例如交互难度)来组织训练数据,但这些元数据往往无法充分捕捉训练过程中的复杂动态,导致模型训练效率不高,且容易陷入局部最优。

核心思路:论文的核心思路是利用基于梯度的数据估值方法(TracIn)来评估每个训练样本对模型性能提升的贡献。TracIn 通过计算训练样本对验证集损失的影响来衡量其重要性,从而可以更准确地反映样本的价值。然后,根据样本的 TracIn 分数构建课程,优先训练对模型性能提升贡献更大的样本。

技术框架:整体框架包括以下几个主要步骤:1) 使用 GameFormer 模型在 nuPlan 数据集上进行训练;2) 使用 TracIn 算法计算每个训练样本的梯度相似性得分,该得分反映了该样本对验证集损失的影响;3) 根据 TracIn 得分对训练样本进行排序,构建课程;4) 使用构建的课程对 GameFormer 模型进行训练,即按照 TracIn 得分从高到低的顺序,逐步引入训练样本。

关键创新:论文的关键创新在于将基于梯度的数据估值方法应用于博弈论运动规划的课程学习中。与传统的基于元数据的课程学习方法相比,基于梯度的估值能够更准确地反映训练样本的价值,从而可以更有效地指导模型训练。此外,论文还发现 TracIn 分数与场景元数据几乎是正交的,表明梯度估值捕获了手工特征无法察觉的训练动态。

关键设计:论文的关键设计包括:1) 使用 TracIn 算法计算梯度相似性得分;2) 使用 TracIn 得分对训练样本进行加权,构建课程;3) 使用 GameFormer 作为博弈论运动规划的模型。实验中,作者使用了 nuPlan 数据集,并对比了 TracIn 加权课程、基于元数据的课程和均匀采样三种训练策略。损失函数和网络结构沿用了 GameFormer 的设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TracIn 加权课程在 nuPlan 基准测试上实现了 1.704±0.029 米的平均规划 ADE,显著优于基于元数据的交互难度课程(1.822±0.014 米;p=0.021,Cohen's dz=3.88),同时表现出比均匀基线更低的方差(1.772±0.134 米)。此外,实验还表明,基于梯度的课程加权优于硬数据选择,表明全数据课程加权能够更好地利用数据信息。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航等领域,通过更有效地利用训练数据,提高运动规划模型的性能和泛化能力。该方法能够减少对大量人工标注数据的依赖,降低训练成本,并加速智能系统的开发和部署。未来,该方法可以扩展到其他类型的运动规划问题,并与其他课程学习策略相结合,进一步提升训练效果。

📄 摘要(原文)

We demonstrate that gradient-based data valuation produces curriculum orderings that significantly outperform metadata-based heuristics for training game-theoretic motion planners. Specifically, we apply TracIn gradient-similarity scoring to GameFormer on the nuPlan benchmark and construct a curriculum that weights training scenarios by their estimated contribution to validation loss reduction. Across three random seeds, the TracIn-weighted curriculum achieves a mean planning ADE of $1.704\pm0.029$\,m, significantly outperforming the metadata-based interaction-difficulty curriculum ($1.822\pm0.014$\,m; paired $t$-test $p=0.021$, Cohen's $d_z=3.88$) while exhibiting lower variance than the uniform baseline ($1.772\pm0.134$\,m). Our analysis reveals that TracIn scores and scenario metadata are nearly orthogonal (Spearman $ρ=-0.014$), indicating that gradient-based valuation captures training dynamics invisible to hand-crafted features. We further show that gradient-based curriculum weighting succeeds where hard data selection fails: TracIn-curated 20\% subsets degrade performance by $2\times$, whereas full-data curriculum weighting with the same scores yields the best results. These findings establish gradient-based data valuation as a practical tool for improving sample efficiency in game-theoretic planning.