Transformer Driven Visual Servoing and Dual Arm Impedance Control for Fabric Texture Matching

作者: Fuyuki Tokuda, Akira Seino, Akinari Kobayashi, Kai Tang, Kazuhiro Kosuge

分类: cs.RO

发布日期: 2025-11-26 (更新: 2025-12-11)

备注: 8 pages, 11 figures. Accepted to IEEE Robotics and Automation Letters (RA-L)

💡 一句话要点

提出基于Transformer的视觉伺服与双臂阻抗控制方法，用于织物纹理精确对齐与放置。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 视觉伺服 双臂机器人 阻抗控制 Transformer网络 织物纹理对齐

📋 核心要点

现有方法难以在织物放置过程中精确对齐纹理，且需要大量真实数据训练，泛化性不足。
论文提出结合Transformer视觉伺服和双臂阻抗控制，利用DEAM模块提升姿态差异预测精度，实现精确对齐。
实验表明，该系统能准确对齐不同纹理的织物，且仅使用合成数据训练即可在真实场景中零样本部署。

📝 摘要（中文）

本文提出了一种使用双臂机械臂和灰度相机将一块织物对齐并放置在另一块织物之上的方法，以精确匹配它们的表面纹理。我们提出了一种新颖的控制方案，该方案结合了基于Transformer的视觉伺服与双臂阻抗控制。这种方法使系统能够同时控制织物块的姿态，并将其放置在下面的织物上，同时施加张力以保持织物块平整。我们基于Transformer的网络结合了预训练的骨干网络和一个新引入的差异提取注意力模块（DEAM），这显著提高了姿态差异预测的准确性。该网络完全在渲染软件生成的合成图像上进行训练，无需事先针对特定织物纹理进行训练，即可在真实场景中实现零样本部署。真实世界的实验表明，所提出的系统能够准确对齐具有不同纹理的织物块。

🔬 方法详解

问题定义：该论文旨在解决双臂机器人操作中，如何精确地将一块织物放置在另一块织物上，并使它们的纹理对齐的问题。现有方法通常依赖于大量的真实数据进行训练，且难以处理不同纹理的织物，泛化能力较差。此外，保持织物平整也是一个挑战。

核心思路：论文的核心思路是将基于Transformer的视觉伺服与双臂阻抗控制相结合。视觉伺服负责估计织物之间的姿态差异，并引导机械臂进行调整。双臂阻抗控制则用于施加适当的张力，以保持织物平整。Transformer网络用于姿态差异的预测，并采用差异提取注意力模块（DEAM）来提高预测精度。

技术框架：整体框架包含以下几个主要模块：1) 图像采集模块：使用灰度相机获取织物图像。2) 基于Transformer的姿态估计模块：利用Transformer网络和DEAM模块，从图像中估计两块织物之间的姿态差异。3) 视觉伺服控制模块：根据姿态差异，计算机械臂的运动指令，实现织物对齐。4) 双臂阻抗控制模块：控制双臂机械臂施加张力，保持织物平整。整个流程是闭环控制，不断调整机械臂的姿态，直到织物纹理对齐。

关键创新：该论文的关键创新在于：1) 提出了将Transformer网络应用于视觉伺服任务，并设计了DEAM模块，显著提高了姿态差异预测的准确性。2) 实现了仅使用合成数据训练，即可在真实场景中进行零样本部署，大大降低了数据采集和标注的成本。3) 将视觉伺服与双臂阻抗控制相结合，实现了织物姿态控制和张力控制的协同。

关键设计：Transformer网络采用预训练的骨干网络（backbone），例如ResNet等，用于提取图像特征。DEAM模块通过计算特征图之间的差异，并利用注意力机制来突出重要的差异区域，从而提高姿态差异预测的精度。损失函数采用均方误差（MSE）损失，用于衡量预测姿态与真实姿态之间的差异。双臂阻抗控制器的参数需要根据织物的特性进行调整，以实现最佳的张力控制效果。

📊 实验亮点

实验结果表明，所提出的系统能够准确对齐具有不同纹理的织物块。通过引入DEAM模块，姿态差异预测的准确性得到了显著提高。更重要的是，该系统仅使用合成数据进行训练，即可在真实场景中实现零样本部署，无需针对特定织物纹理进行额外训练，大大降低了实际应用成本。

🎯 应用场景

该研究成果可应用于纺织、服装制造等领域，实现自动化、高精度的织物对齐和放置。例如，在服装生产线上，可以利用该系统自动将不同纹理的布料拼接在一起，提高生产效率和产品质量。此外，该技术还可以扩展到其他柔性物体的操作任务中，例如皮革、纸张等。

📄 摘要（原文）

In this paper, we propose a method to align and place a fabric piece on top of another using a dual-arm manipulator and a grayscale camera, so that their surface textures are accurately matched. We propose a novel control scheme that combines Transformer-driven visual servoing with dualarm impedance control. This approach enables the system to simultaneously control the pose of the fabric piece and place it onto the underlying one while applying tension to keep the fabric piece flat. Our transformer-based network incorporates pretrained backbones and a newly introduced Difference Extraction Attention Module (DEAM), which significantly enhances pose difference prediction accuracy. Trained entirely on synthetic images generated using rendering software, the network enables zero-shot deployment in real-world scenarios without requiring prior training on specific fabric textures. Real-world experiments demonstrate that the proposed system accurately aligns fabric pieces with different textures.

Transformer Driven Visual Servoing and Dual Arm Impedance Control for Fabric Texture Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册