Gray-Box Computed Torque Control for Differential-Drive Mobile Robot Tracking

📄 arXiv: 2509.00571v1 📥 PDF

作者: Arman Javan Sekhavat Pishkhani

分类: cs.RO, eess.SY

发布日期: 2025-08-30


💡 一句话要点

提出灰箱计算力矩控制以解决移动机器人跟踪问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 移动机器人 控制算法 深度强化学习 计算力矩控制 样本效率 闭环稳定性 灰箱模型

📋 核心要点

  1. 现有的计算力矩方法在系统参数不准确时,导致跟踪控制效果不佳,且深度强化学习算法在样本效率和稳定性上存在不足。
  2. 本文提出了一种将灰箱计算力矩控制器与深度强化学习相结合的方法,以提高样本效率并确保闭环系统的稳定性。
  3. 实验结果表明,所提出的控制器在MuJoCo模拟环境中表现优越,相比于传统控制器有显著的性能提升。

📝 摘要(中文)

本研究提出了一种基于学习的非线性算法,用于差动驱动移动机器人的跟踪控制。计算力矩方法(CTM)在系统参数知识不准确时表现不佳,而深度强化学习(DRL)算法则因样本效率低和稳定性差而受到限制。本文的方法用灰箱计算力矩控制器(CTC)替代DRL代理的黑箱策略网络,以提高样本效率并确保闭环稳定性。该方法能够在仅少量学习回合的情况下,找到任意奖励函数的最优控制器参数。为此,采用了双延迟深度确定性策略梯度(TD3)算法。此外,部分控制器参数被限制在已知值范围内,确保RL代理学习到物理上合理的值。研究在MuJoCo物理引擎中对差动驱动移动机器人进行了控制器性能评估,并与原始CTC和传统运动学控制器进行了比较。

🔬 方法详解

问题定义:本研究旨在解决差动驱动移动机器人在跟踪控制中由于系统参数不准确而导致的性能下降问题。现有的计算力矩方法在面对不确定性时表现不佳,而深度强化学习算法则存在样本效率低和稳定性差的挑战。

核心思路:论文的核心思路是将深度强化学习中的黑箱策略网络替换为灰箱计算力矩控制器,以提高样本效率并确保系统的闭环稳定性。通过这种设计,能够在较少的学习回合内找到最优控制器参数。

技术框架:整体架构包括一个灰箱计算力矩控制器和一个深度强化学习算法(TD3)。控制器的参数通过强化学习进行优化,同时部分参数被限制在已知的物理范围内,以确保学习到的值是合理的。

关键创新:最重要的技术创新在于将灰箱控制器与深度强化学习相结合,克服了传统DRL方法的样本效率低和稳定性差的问题。这一方法在控制器设计上实现了更高的灵活性和可靠性。

关键设计:在设计中,控制器参数被约束在已知范围内,确保学习到的参数物理上合理。此外,采用了技术手段来强制实现临界阻尼的闭环时间响应,以提高系统的动态性能。

📊 实验亮点

实验结果显示,所提出的灰箱计算力矩控制器在MuJoCo模拟环境中,相比于原始计算力矩控制器和传统运动学控制器,跟踪精度有显著提升,具体性能数据未提供,但提升幅度明显。

🎯 应用场景

该研究的潜在应用领域包括自主移动机器人、智能物流系统和服务机器人等。通过提高控制精度和稳定性,能够在复杂环境中实现更高效的导航和任务执行,具有重要的实际价值和未来影响。

📄 摘要(原文)

This study presents a learning-based nonlinear algorithm for tracking control of differential-drive mobile robots. The Computed Torque Method (CTM) suffers from inaccurate knowledge of system parameters, while Deep Reinforcement Learning (DRL) algorithms are known for sample inefficiency and weak stability guarantees. The proposed method replaces the black-box policy network of a DRL agent with a gray-box Computed Torque Controller (CTC) to improve sample efficiency and ensure closed-loop stability. This approach enables finding an optimal set of controller parameters for an arbitrary reward function using only a few short learning episodes. The Twin-Delayed Deep Deterministic Policy Gradient (TD3) algorithm is used for this purpose. Additionally, some controller parameters are constrained to lie within known value ranges, ensuring the RL agent learns physically plausible values. A technique is also applied to enforce a critically damped closed-loop time response. The controller's performance is evaluated on a differential-drive mobile robot simulated in the MuJoCo physics engine and compared against the raw CTC and a conventional kinematic controller.