Behavioral Score Diffusion: Model-Free Trajectory Planning via Kernel-Based Score Estimation from Data

作者: Shihao Li, Jiachen Li, Jiamin Xu, Dongmei Chen

分类: cs.RO, eess.SY

发布日期: 2026-04-01

💡 一句话要点

提出行为分数扩散(BSD)，一种无需训练和模型的数据驱动轨迹规划方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 轨迹规划 扩散模型 数据驱动 机器人 核方法

📋 核心要点

现有基于扩散的轨迹规划方法依赖于大量数据训练的score网络或精确的动力学模型，限制了其应用。
BSD通过核加权估计直接从轨迹数据中计算扩散score函数，无需训练或动力学模型，实现数据驱动的轨迹规划。
实验表明，BSD在复杂机器人系统中取得了接近基于模型方法的性能，并显著优于最近邻检索方法。

📝 摘要（中文）

基于扩散的轨迹优化已成为一种强大的规划范式，但现有方法需要在大数据集上训练的score网络或用于score计算的解析动力学模型。我们提出行为分数扩散(BSD)，这是一种无需训练和模型的数据驱动轨迹规划器，它通过基于核的加权估计直接从轨迹数据集中计算扩散score函数。在每个去噪步骤中，BSD使用三重核加权方案（扩散邻近度、状态上下文和目标相关性）检索相关轨迹，并计算去噪轨迹的Nadaraya-Watson估计。扩散噪声schedule自然地控制核带宽，从而创建多尺度非参数回归：高噪声下的全局行为模式的广泛平均，低噪声下的细粒度局部插值。这种由粗到精的结构处理非线性动力学，无需线性化或参数假设。通过对核估计状态轨迹应用shielded rollout来保持安全性，这与现有的基于模型的方法相同。我们在停车场景中评估了BSD在四种复杂度递增的机器人系统（3D-6D状态空间）上的性能。BSD在不需要动力学模型的情况下，仅使用1000条预先收集的轨迹，即可实现模型基线平均奖励的98.5%。BSD显著优于最近邻检索（提升18-63%），证实了扩散去噪机制对于有效的数据驱动规划至关重要。

🔬 方法详解

问题定义：现有的基于扩散的轨迹规划方法通常需要学习一个score网络，这需要大量的训练数据和计算资源。此外，一些方法依赖于精确的动力学模型，这在实际应用中可能难以获得或计算成本高昂。因此，如何在没有大量训练数据和精确动力学模型的情况下，实现高效的轨迹规划是一个重要的挑战。

核心思路：BSD的核心思路是利用已有的轨迹数据，通过核函数加权的方式直接估计扩散过程中的score函数。具体来说，BSD使用一个三重核函数，考虑了扩散邻近度、状态上下文和目标相关性，从而能够从数据集中检索到与当前状态和目标相关的轨迹。然后，通过Nadaraya-Watson估计，利用这些轨迹来估计去噪后的轨迹。

技术框架：BSD的整体框架包括以下几个主要步骤：1) 从数据集中采样初始轨迹；2) 对轨迹添加噪声，进行扩散过程；3) 在每个去噪步骤中，使用三重核函数检索相关轨迹；4) 使用Nadaraya-Watson估计计算去噪后的轨迹；5) 重复步骤3和4，直到轨迹恢复到原始状态；6) 使用shielded rollout保证轨迹的安全性。

关键创新：BSD的关键创新在于它是一种无需训练和模型的数据驱动轨迹规划方法。与现有的基于扩散的方法相比，BSD不需要学习score网络或依赖于精确的动力学模型，而是直接从数据中学习。此外，BSD的三重核函数能够有效地检索到与当前状态和目标相关的轨迹，从而提高了规划的效率和准确性。

关键设计：BSD的关键设计包括：1) 三重核函数的设计，它综合考虑了扩散邻近度、状态上下文和目标相关性；2) Nadaraya-Watson估计的使用，它能够有效地利用检索到的轨迹来估计去噪后的轨迹；3) 扩散噪声schedule的设计，它能够自然地控制核带宽，从而实现多尺度非参数回归；4) shielded rollout的使用，它能够保证轨迹的安全性。

🖼️ 关键图片

📊 实验亮点

BSD在四个复杂度递增的机器人系统（3D-6D状态空间）的停车场景中进行了评估。实验结果表明，BSD在不需要动力学模型的情况下，仅使用1000条预先收集的轨迹，即可实现模型基线平均奖励的98.5%。此外，BSD显著优于最近邻检索方法（提升18-63%），证实了扩散去噪机制对于有效的数据驱动规划至关重要。

🎯 应用场景

BSD具有广泛的应用前景，例如自动驾驶、机器人导航、运动规划等领域。它可以在没有精确动力学模型或大量训练数据的情况下，实现高效的轨迹规划。此外，BSD还可以应用于复杂环境下的轨迹规划，例如存在障碍物或动态环境的情况下。BSD的实际价值在于降低了轨迹规划的难度和成本，提高了轨迹规划的效率和鲁棒性。未来，BSD可以进一步扩展到更复杂的任务和环境，例如多智能体协作、强化学习等。

📄 摘要（原文）

Diffusion-based trajectory optimization has emerged as a powerful planning paradigm, but existing methods require either learned score networks trained on large datasets or analytical dynamics models for score computation. We introduce \emph{Behavioral Score Diffusion} (BSD), a training-free and model-free trajectory planner that computes the diffusion score function directly from a library of trajectory data via kernel-weighted estimation. At each denoising step, BSD retrieves relevant trajectories using a triple-kernel weighting scheme -- diffusion proximity, state context, and goal relevance -- and computes a Nadaraya-Watson estimate of the denoised trajectory. The diffusion noise schedule naturally controls kernel bandwidths, creating a multi-scale nonparametric regression: broad averaging of global behavioral patterns at high noise, fine-grained local interpolation at low noise. This coarse-to-fine structure handles nonlinear dynamics without linearization or parametric assumptions. Safety is preserved by applying shielded rollout on kernel-estimated state trajectories, identical to existing model-based approaches. We evaluate BSD on four robotic systems of increasing complexity (3D--6D state spaces) in a parking scenario. BSD with fixed bandwidth achieves 98.5\% of the model-based baseline's average reward across systems while requiring no dynamics model, using only 1{,}000 pre-collected trajectories. BSD substantially outperforms nearest-neighbor retrieval (18--63\% improvement), confirming that the diffusion denoising mechanism is essential for effective data-driven planning.

Behavioral Score Diffusion: Model-Free Trajectory Planning via Kernel-Based Score Estimation from Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理