Residual RL--MPC for Robust Microrobotic Cell Pushing Under Time-Varying Flow
作者: Yanda Yang, Sambeeta Das
分类: cs.RO, cs.AI
发布日期: 2026-03-05
备注: 8 pages, 8 figures
💡 一句话要点
提出基于残差强化学习的MPC方法,用于时变流场下稳健的微型机器人细胞推运。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 微型机器人 细胞推运 强化学习 模型预测控制 微流体 残差学习
📋 核心要点
- 微流体环境下的细胞操控易受扰动影响,导致接触不稳定和横向漂移,现有方法难以保证鲁棒性。
- 提出一种混合控制策略,结合模型预测控制(MPC)和残差强化学习,利用强化学习策略对MPC进行修正,提升控制的鲁棒性。
- 实验结果表明,该方法在时变流场下,相比纯MPC和PID控制,具有更高的鲁棒性和跟踪精度,并具备一定的泛化能力。
📝 摘要(中文)
在微流体流动中,富含接触的微操作极具挑战性,因为微小的扰动会破坏推运接触并引起较大的横向漂移。本文研究了在时变泊肃叶流下,磁性滚动微型机器人跟踪航点采样的参考曲线进行平面细胞推运。我们提出了一种混合控制器,该控制器使用SAC训练的残差策略来增强标称MPC。该策略输出有界的2D速度校正,该校正由接触门控,因此残差动作仅在机器人与细胞接触期间应用,从而保持可靠的接近行为并稳定学习。所有方法共享相同的驱动接口和速度范围,以进行公平比较。实验表明,在非平稳流下,与纯MPC和PID相比,该方法具有更高的鲁棒性和跟踪精度,并且可以从三叶草训练曲线推广到未见过的圆形和正方形轨迹。残差边界扫描确定了一个中间校正限制作为最佳折衷方案,我们在所有基准测试中使用它。
🔬 方法详解
问题定义:论文旨在解决微流体环境中,利用磁性微型机器人进行细胞推运时,由于时变流场等因素引起的接触不稳定和跟踪精度下降问题。现有的MPC或PID控制方法难以应对这种复杂环境下的扰动,导致机器人容易失去与细胞的接触,或者无法精确跟踪目标轨迹。
核心思路:论文的核心思路是利用强化学习来学习一个残差策略,该策略能够对MPC的控制输出进行修正,从而提高系统对扰动的鲁棒性。通过将强化学习与传统的MPC相结合,既能利用MPC的预测能力,又能利用强化学习的自适应能力,从而实现更稳健的细胞推运控制。
技术框架:整体框架是一个混合控制系统,主要包含两个模块:MPC控制器和残差强化学习策略。MPC控制器根据预定义的参考轨迹和系统模型,计算出机器人的期望控制输入。残差强化学习策略则根据当前的状态信息,输出一个对MPC控制输入的修正量。最终的控制输入是MPC的输出加上残差策略的输出。为了保证学习的稳定性,残差动作仅在机器人与细胞接触期间应用。
关键创新:该方法最重要的创新点在于将强化学习与MPC相结合,提出了一种混合控制策略。与传统的纯MPC或PID控制相比,该方法能够更好地应对时变流场等复杂环境下的扰动,提高细胞推运的鲁棒性和跟踪精度。此外,接触门控机制保证了学习过程的稳定性。
关键设计:残差强化学习策略采用SAC(Soft Actor-Critic)算法进行训练。策略网络和价值网络都采用多层感知机(MLP)。损失函数包括SAC算法标准的策略损失和价值损失。为了限制残差动作的大小,对策略网络的输出进行裁剪。接触检测通过力传感器或视觉信息来实现,用于判断机器人是否与细胞接触,从而决定是否应用残差动作。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在时变流场下,所提出的残差强化学习MPC方法相比于纯MPC和PID控制,能够显著提高细胞推运的鲁棒性和跟踪精度。该方法能够从三叶草训练曲线泛化到未见过的圆形和正方形轨迹,表明其具有一定的泛化能力。通过残差边界扫描,确定了最佳的校正限制,进一步提升了控制性能。
🎯 应用场景
该研究成果可应用于微纳尺度下的生物操作,例如细胞分选、细胞组装、药物递送等。在生物医学工程、再生医学等领域具有重要的应用价值。未来,该技术有望扩展到更复杂的微流体系统中,实现更精确、更智能的微操作。
📄 摘要(原文)
Contact-rich micromanipulation in microfluidic flow is challenging because small disturbances can break pushing contact and induce large lateral drift. We study planar cell pushing with a magnetic rolling microrobot that tracks a waypoint-sampled reference curve under time-varying Poiseuille flow. We propose a hybrid controller that augments a nominal MPC with a learned residual policy trained by SAC. The policy outputs a bounded 2D velocity correction that is contact-gated, so residual actions are applied only during robot--cell contact, preserving reliable approach behavior and stabilizing learning. All methods share the same actuation interface and speed envelope for fair comparisons. Experiments show improved robustness and tracking accuracy over pure MPC and PID under nonstationary flow, with generalization from a clover training curve to unseen circle and square trajectories. A residual-bound sweep identifies an intermediate correction limit as the best trade-off, which we use in all benchmarks.