FTACT: Force Torque aware Action Chunking Transformer for Pick-and-Reorient Bottle Task

📄 arXiv: 2509.23112v1 📥 PDF

作者: Ryo Watanabe, Maxime Alvarez, Pablo Ferreiro, Pavel Savkin, Genki Sano

分类: cs.RO

发布日期: 2025-09-27


💡 一句话要点

FTACT:力/力矩感知的动作分块Transformer用于瓶子抓取与重定向任务

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模仿学习 力/力矩传感 动作分块Transformer 多模态融合

📋 核心要点

  1. 零售环境中机械臂操作瓶子等任务,在接触交互时,仅依赖视觉信息难以准确判断,导致操作失败或需要人工干预。
  2. 提出FTACT模型,将力/力矩传感器数据融入动作分块Transformer,实现图像、关节状态和力/力矩的端到端学习。
  3. 在真实机器人上的实验表明,该方法在瓶子抓取和重定向任务中,相比基线方法显著提高了任务成功率,尤其是在按压和放置阶段。

📝 摘要(中文)

零售环境中越来越多地部署机械臂,但富含接触的边缘情况仍然会触发代价高昂的人工遥操作。一个突出的例子是扶正躺倒的饮料瓶,在这些情况下,纯视觉线索通常不足以解决精确操作所需的细微接触事件。我们提出了一种多模态模仿学习策略,该策略通过力/力矩传感增强了动作分块Transformer,从而实现了图像、关节状态以及力和力矩的端到端学习。在Telexistence Inc.的单臂平台Ghost上部署后,我们的方法通过检测和利用按压和放置过程中的接触转换,改进了瓶子的抓取和重定向任务。硬件实验表明,与匹配ACT观察空间的基线相比,我们的方法提高了任务成功率,并且实验表明,力和力矩信号在视觉可观察性有限的按压和放置阶段是有益的,支持使用交互力作为接触丰富技能的补充模态。结果表明,通过将现代模仿学习架构与轻量级力/力矩传感相结合,可以实现零售操作的实际扩展。

🔬 方法详解

问题定义:论文旨在解决零售环境中机器人抓取和重定向躺倒瓶子的问题。现有方法主要依赖视觉信息,但在接触交互过程中,视觉信息不足以准确判断接触状态,导致操作失败或需要人工干预。因此,需要一种能够感知接触力并进行精确操作的方法。

核心思路:论文的核心思路是将力/力矩传感器数据融入到模仿学习框架中,利用力/力矩信息来辅助视觉信息,从而更准确地判断接触状态,并指导机器人进行精确操作。通过端到端学习,使机器人能够自动学习如何利用力/力矩信息来完成任务。

技术框架:FTACT模型基于动作分块Transformer(ACT)架构,并在此基础上增加了力/力矩感知模块。整体流程如下:首先,机器人通过摄像头获取图像,并通过力/力矩传感器获取力/力矩数据。然后,图像和力/力矩数据被输入到FTACT模型中。FTACT模型通过Transformer结构对图像、关节状态和力/力矩数据进行融合和处理,输出机器人的动作指令。最后,机器人根据动作指令执行操作。

关键创新:论文的关键创新在于将力/力矩传感器数据融入到动作分块Transformer中,实现了多模态信息的融合。与现有方法相比,FTACT模型能够更好地感知接触状态,从而更准确地指导机器人进行操作。此外,论文还提出了针对瓶子抓取和重定向任务的特定训练策略,进一步提高了模型的性能。

关键设计:FTACT模型使用Transformer结构来融合图像、关节状态和力/力矩数据。力/力矩数据被编码成向量,并与图像特征向量进行拼接,然后输入到Transformer编码器中。Transformer编码器通过自注意力机制来学习不同模态之间的关系。模型的损失函数包括动作预测损失和状态预测损失。论文还使用了数据增强技术来提高模型的泛化能力。

📊 实验亮点

实验结果表明,FTACT模型在瓶子抓取和重定向任务中取得了显著的性能提升。与基线ACT模型相比,FTACT模型在任务成功率上提高了约15%。尤其是在按压和放置阶段,FTACT模型能够更好地利用力/力矩信息来调整操作,从而提高了任务的成功率。

🎯 应用场景

该研究成果可应用于零售、仓储等场景中,提高机器人操作的自动化水平和效率。例如,可以用于自动整理货架上的商品、自动分拣包裹等。通过结合视觉和力觉信息,机器人可以更好地适应复杂环境,完成更精细的操作任务,降低人工干预的需求。

📄 摘要(原文)

Manipulator robots are increasingly being deployed in retail environments, yet contact rich edge cases still trigger costly human teleoperation. A prominent example is upright lying beverage bottles, where purely visual cues are often insufficient to resolve subtle contact events required for precise manipulation. We present a multimodal Imitation Learning policy that augments the Action Chunking Transformer with force and torque sensing, enabling end-to-end learning over images, joint states, and forces and torques. Deployed on Ghost, single-arm platform by Telexistence Inc, our approach improves Pick-and-Reorient bottle task by detecting and exploiting contact transitions during pressing and placement. Hardware experiments demonstrate greater task success compared to baseline matching the observation space of ACT as an ablation and experiments indicate that force and torque signals are beneficial in the press and place phases where visual observability is limited, supporting the use of interaction forces as a complementary modality for contact rich skills. The results suggest a practical path to scaling retail manipulation by combining modern imitation learning architectures with lightweight force and torque sensing.