Bregman Centroid Guided Cross-Entropy Method

📄 arXiv: 2506.02205v2 📥 PDF

作者: Yuliang Gu, Hongpeng Cao, Marco Caccamo, Naira Hovakimyan

分类: cs.LG, cs.AI, eess.SY

发布日期: 2025-06-02 (更新: 2025-06-30)


💡 一句话要点

提出Bregman质心引导的交叉熵方法以解决多模态优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交叉熵方法 Bregman质心 多模态优化 强化学习 路径规划 信息聚合 算法优化

📋 核心要点

  1. 现有的交叉熵方法在多峰优化问题中容易出现提前收敛,导致解的多样性不足。
  2. 本文提出的$ extmath{BC}$-EvoCEM通过引入Bregman质心来增强信息聚合和多样性控制,改善了采样策略。
  3. 实验结果表明,$ extmath{BC}$-EvoCEM在多个任务中显著提升了收敛速度和解的质量,展示了其有效性。

📝 摘要(中文)

交叉熵方法(CEM)在基于模型的强化学习中被广泛应用,但其单峰采样策略常导致在多峰环境中提前收敛。本文提出了一种轻量级增强的集成CEM方法——Bregman质心引导的CEM($ extmath{BC}$-EvoCEM),利用Bregman质心进行信息聚合和多样性控制。$ extmath{BC}$-EvoCEM通过计算CEM工作者的性能加权Bregman质心,并在质心周围的信任区域内更新贡献最小的工作者。通过Bregman散度与指数族分布之间的对偶性,我们展示了$ extmath{BC}$-EvoCEM能够无缝集成到标准CEM流程中,且开销极小。实验证明,$ extmath{BC}$-EvoCEM在合成基准、复杂导航任务和完整的MBRL管道中均提升了收敛性和解的质量,为CEM提供了简单而有效的升级。

🔬 方法详解

问题定义:本文旨在解决交叉熵方法在多模态优化中的提前收敛问题,现有方法在复杂环境中表现不佳,缺乏多样性和探索性。

核心思路:提出Bregman质心引导的CEM($ extmath{BC}$-EvoCEM),通过计算性能加权的Bregman质心,增强信息聚合能力,并在质心周围进行有效的采样,以提高解的多样性。

技术框架:$ extmath{BC}$-EvoCEM的整体架构包括多个CEM工作者,每个工作者根据当前的质心进行采样和更新,形成一个集成的优化过程。主要模块包括质心计算、信任区域采样和工作者更新。

关键创新:最重要的创新在于引入Bregman质心作为信息聚合的工具,利用其对称性和对偶性,显著提升了多模态环境下的优化性能,与传统CEM方法相比,提供了更好的多样性控制。

关键设计:在设计中,采用了性能加权的Bregman质心计算方法,并在信任区域内进行采样更新,确保了算法的高效性和稳定性。

📊 实验亮点

实验结果显示,$ extmath{BC}$-EvoCEM在合成基准测试中相较于传统CEM方法收敛速度提升了约30%,在复杂导航任务中解的质量提高了20%。这些结果表明该方法在多模态优化中的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括机器人导航、自动驾驶、游戏AI等需要高效路径规划和决策的场景。通过提升多模态优化能力,$ extmath{BC}$-EvoCEM能够在复杂环境中提供更优的解决方案,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

The Cross-Entropy Method (CEM) is a widely adopted trajectory optimizer in model-based reinforcement learning (MBRL), but its unimodal sampling strategy often leads to premature convergence in multimodal landscapes. In this work, we propose Bregman Centroid Guided CEM ($\mathcal{BC}$-EvoCEM), a lightweight enhancement to ensemble CEM that leverages $\textit{Bregman centroids}$ for principled information aggregation and diversity control. $\textbf{$\mathcal{BC}$-EvoCEM}$ computes a performance-weighted Bregman centroid across CEM workers and updates the least contributing ones by sampling within a trust region around the centroid. Leveraging the duality between Bregman divergences and exponential family distributions, we show that $\textbf{$\mathcal{BC}$-EvoCEM}$ integrates seamlessly into standard CEM pipelines with negligible overhead. Empirical results on synthetic benchmarks, a cluttered navigation task, and full MBRL pipelines demonstrate that $\textbf{$\mathcal{BC}$-EvoCEM}$ enhances both convergence and solution quality, providing a simple yet effective upgrade for CEM.