Behavioral Score Diffusion: Model-Free Trajectory Planning via Kernel-Based Score Estimation from Data

📄 arXiv: 2604.00391v1 📥 PDF

作者: Shihao Li, Jiachen Li, Jiamin Xu, Dongmei Chen

分类: cs.RO, eess.SY

发布日期: 2026-04-01


💡 一句话要点

提出行为分数扩散(BSD),一种无需训练和模型的数据驱动轨迹规划方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 轨迹规划 扩散模型 数据驱动 机器人 核方法

📋 核心要点

  1. 现有基于扩散的轨迹规划方法依赖于大量数据训练的score网络或精确的动力学模型,限制了其应用。
  2. BSD通过核加权估计直接从轨迹数据中计算扩散score函数,无需训练或动力学模型,实现数据驱动的轨迹规划。
  3. 实验表明,BSD在复杂机器人系统中取得了接近基于模型方法的性能,并显著优于最近邻检索方法。

📝 摘要(中文)

基于扩散的轨迹优化已成为一种强大的规划范式,但现有方法需要在大数据集上训练的score网络或用于score计算的解析动力学模型。我们提出行为分数扩散(BSD),这是一种无需训练和模型的数据驱动轨迹规划器,它通过基于核的加权估计直接从轨迹数据集中计算扩散score函数。在每个去噪步骤中,BSD使用三重核加权方案(扩散邻近度、状态上下文和目标相关性)检索相关轨迹,并计算去噪轨迹的Nadaraya-Watson估计。扩散噪声schedule自然地控制核带宽,从而创建多尺度非参数回归:高噪声下的全局行为模式的广泛平均,低噪声下的细粒度局部插值。这种由粗到精的结构处理非线性动力学,无需线性化或参数假设。通过对核估计状态轨迹应用shielded rollout来保持安全性,这与现有的基于模型的方法相同。我们在停车场景中评估了BSD在四种复杂度递增的机器人系统(3D-6D状态空间)上的性能。BSD在不需要动力学模型的情况下,仅使用1000条预先收集的轨迹,即可实现模型基线平均奖励的98.5%。BSD显著优于最近邻检索(提升18-63%),证实了扩散去噪机制对于有效的数据驱动规划至关重要。

🔬 方法详解

问题定义:现有的基于扩散的轨迹规划方法通常需要学习一个score网络,这需要大量的训练数据和计算资源。此外,一些方法依赖于精确的动力学模型,这在实际应用中可能难以获得或计算成本高昂。因此,如何在没有大量训练数据和精确动力学模型的情况下,实现高效的轨迹规划是一个重要的挑战。

核心思路:BSD的核心思路是利用已有的轨迹数据,通过核函数加权的方式直接估计扩散过程中的score函数。具体来说,BSD使用一个三重核函数,考虑了扩散邻近度、状态上下文和目标相关性,从而能够从数据集中检索到与当前状态和目标相关的轨迹。然后,通过Nadaraya-Watson估计,利用这些轨迹来估计去噪后的轨迹。

技术框架:BSD的整体框架包括以下几个主要步骤:1) 从数据集中采样初始轨迹;2) 对轨迹添加噪声,进行扩散过程;3) 在每个去噪步骤中,使用三重核函数检索相关轨迹;4) 使用Nadaraya-Watson估计计算去噪后的轨迹;5) 重复步骤3和4,直到轨迹恢复到原始状态;6) 使用shielded rollout保证轨迹的安全性。

关键创新:BSD的关键创新在于它是一种无需训练和模型的数据驱动轨迹规划方法。与现有的基于扩散的方法相比,BSD不需要学习score网络或依赖于精确的动力学模型,而是直接从数据中学习。此外,BSD的三重核函数能够有效地检索到与当前状态和目标相关的轨迹,从而提高了规划的效率和准确性。

关键设计:BSD的关键设计包括:1) 三重核函数的设计,它综合考虑了扩散邻近度、状态上下文和目标相关性;2) Nadaraya-Watson估计的使用,它能够有效地利用检索到的轨迹来估计去噪后的轨迹;3) 扩散噪声schedule的设计,它能够自然地控制核带宽,从而实现多尺度非参数回归;4) shielded rollout的使用,它能够保证轨迹的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BSD在四个复杂度递增的机器人系统(3D-6D状态空间)的停车场景中进行了评估。实验结果表明,BSD在不需要动力学模型的情况下,仅使用1000条预先收集的轨迹,即可实现模型基线平均奖励的98.5%。此外,BSD显著优于最近邻检索方法(提升18-63%),证实了扩散去噪机制对于有效的数据驱动规划至关重要。

🎯 应用场景

BSD具有广泛的应用前景,例如自动驾驶、机器人导航、运动规划等领域。它可以在没有精确动力学模型或大量训练数据的情况下,实现高效的轨迹规划。此外,BSD还可以应用于复杂环境下的轨迹规划,例如存在障碍物或动态环境的情况下。BSD的实际价值在于降低了轨迹规划的难度和成本,提高了轨迹规划的效率和鲁棒性。未来,BSD可以进一步扩展到更复杂的任务和环境,例如多智能体协作、强化学习等。

📄 摘要(原文)

Diffusion-based trajectory optimization has emerged as a powerful planning paradigm, but existing methods require either learned score networks trained on large datasets or analytical dynamics models for score computation. We introduce \emph{Behavioral Score Diffusion} (BSD), a training-free and model-free trajectory planner that computes the diffusion score function directly from a library of trajectory data via kernel-weighted estimation. At each denoising step, BSD retrieves relevant trajectories using a triple-kernel weighting scheme -- diffusion proximity, state context, and goal relevance -- and computes a Nadaraya-Watson estimate of the denoised trajectory. The diffusion noise schedule naturally controls kernel bandwidths, creating a multi-scale nonparametric regression: broad averaging of global behavioral patterns at high noise, fine-grained local interpolation at low noise. This coarse-to-fine structure handles nonlinear dynamics without linearization or parametric assumptions. Safety is preserved by applying shielded rollout on kernel-estimated state trajectories, identical to existing model-based approaches. We evaluate BSD on four robotic systems of increasing complexity (3D--6D state spaces) in a parking scenario. BSD with fixed bandwidth achieves 98.5\% of the model-based baseline's average reward across systems while requiring no dynamics model, using only 1{,}000 pre-collected trajectories. BSD substantially outperforms nearest-neighbor retrieval (18--63\% improvement), confirming that the diffusion denoising mechanism is essential for effective data-driven planning.